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译 者 F 


当今 ，Python 已 经 成 为 一 种 主 沉 的 编程 语言 ， 它 多 于 该 与 ， 非 单 实用 ， 从 而 忆 得 了 三 
泛 的 群众 基础 ， 被 无 数 程序 员 热 烈 追捧 。Pvython 几乎 在 每 个 领域 都 表现 得 非常 优秀 ， 这 是 
一 门 真正 意义 上 的 全 栈 语 言 。 

此 外 ，Python 也 是 数据 分 林 人 员 和 统计 人 员 在 处 理 大 量 数据 集 和 复杂 数据 可 视 化 方面 
最 间 见 和 最 滨 行 的 语言 之 一 。 具 体 来 说 ， 开 友人 员 往 往 需 要 在 工作 中 应 用 统计 拉 术 或 数据 
分 析 ， 或 者 需要 与 Web 应 用 程序 进行 交互 。 特 别 是 ，Python Epler PA, E HINL 
兢 学 习 库 和 灵活 性 的 结合 使 得 Python SER IAI ARRAS eA EY WA ee FE A HP 
使 用 。 

本 书 介 绍 了 Python 语言 中 的 核心 工具 和 库 ， 以 儿 助 谈 者 与 数据 分 析 处 理 过 程 协同 工 
作 、 准 备 相 天 数据 以 执行 简单 的 统计 学 分 机 ， 进 而 构建 具有 实际 意义 的 数据 可 视 化 结 朱 。 
本 书 将 讨论 Python 语言 中 的 各 种 库 ， 例 如 NumPy. pandas, matplotlib, seaborn. SciPy 和 
Scikit-learn， 并 将 其 应 用 于 实际 数据 分 林 和 统计 示例 中 。 

在 本 书 的 翻译 过 程 中 ， 除 刘璋 外 ， 王 稀 、 刘 晓 雪 、 张 博 、 刘 裤 、 张 华 琴 等 人 也 参与 了 
部 分 翻译 工作 ， 在 此 一 并 表示 感谢 。 

由 于 译 者 水 平 有 限 ， 难 免 有 牙 漏 和 不 妥 之 处 ， 恳 请 广大 读者 批评 指正 。 
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Python Æ mi K Ba PT A Se A R A A sc see a SZ A 
大 型 数据 集 和 复杂 的 数据 可 视 化 任务 。 

本 书 介 绍 了 Python 语言 中 的 核心 工具 和 库 ， 以 帮助 读者 与 数据 分 析 人 处 理 过 程 协同 工 
作 、 准 备 相关 数据 以 执行 简单 的 统计 学 分 林 ， 进 而 构建 具有 实际 意义 的 数据 可 视 化 结束 。 
本 书 将 讨论 Python 语言 中 的 各 种 库 ， 如 NumPy. pandas. matplotlib. seaborn, SciPy 和 
Scikit-learn， 并 将 其 应 用 于 实际 数据 分 析 和 统计 示例 中 。 在 阅读 过 程 中 ， 旋 者 将 会 领略 到 如 
何 高 效 地 使 用 Jupyter Noyebook， 并 借助 于 NumPy 和 landas 库 对 数据 进行 操控 。 此 外 ， 还 
将 利用 Python 库 实 现 人 简单 的 预测 模型 、 统 计 计 算 - 分 析 和 数据 分 析 技 术 。 

在 阅读 完 本 书后 ， 读 者 在 基于 Python 的 数据 分 析 方 面 将 具备 较为 丰富 的 经 验 。 


适用 读者 


本 书面 向 初级 数据 分 析 师 、 数 据 工 程 师 和 BI 专业 人 员 ， 他 们 希望 使 用 Python 工具 执行 
局 效 的 数据 分 析 。 要 理解 本 书 所 涉及 的 概 仿 ， 读 痢 应 具备 Python 编程 方面 的 一 些 育 景 知 识 。 


本 书 内 容 


第 1 间 : Anaconda 和 Jupyter Notebook。 本 章 介 绍 了 Python 中 一 些 较为 重要 的 数据 
科学 库 ， 并 对 Python 预测 分 析 所 用 的 主要 对 象 、 属 性 、 方 法 和 函数 进行 了 整体 拉 述 。 

第 2 章 : NumPy 问 量 计算 。 本 章 讨 论 NumPy E, 这 也 是 Python 项 目 中 几乎 全 部 科学 
计算 所 使 用 的 库 。 学 习 如 何 使 用 NumPy 数组 ， 对 于 Python 数据 科学 来 说 十 分 重要 。 

第 3 章 : 数据 分 析 库 pandas。 本 章 将 整体 介绍 pandas 库 。 对 于 Python 编程 语言 来 说 ， 
pandas 库 提 供 了 融 性 人 能、 多 于 使 用 的 数据 结构 和 分 析 工 具 ， 因 而 受到 了 数据 科学 家 以 及 
Python 社区 开 友 者 的 豆 爱 。 本 章 将 通过 相关 示例 展示 如 何 利 用 pandas 执行 手 述 性 分 析 。 

第 4 章 ; 可 视 化 和 数据 分 析 。 本 章 将 考查 数据 科学 的 可 视 化 效果 。Python 针对 不 同 的 
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功能 提供 了 多 种 可 视 化 选项 。 本 章 将 学 习 两 种 最 为 流行 的 库 ， 即 matplotlib 和 seaborn, JF 
面向 真实 数据 集 执行 探索 性 数据 分 析 。 

第 5 章 : Python 统计 计算 。 本 章 解 释 了 如 何 利 用 Python 执行 统计 计算 ， 并 据 此 考查 
包含 青少年 饮酒 信息 的 数据 集 。 

BoB: 预测 分 析 模 型 。 本 章 简 要 介绍 了 预测 分 析 ， 并 通过 构建 一 个 模型 对 青少年 的 
饮酒 习惯 进行 预测 。 


资源 下 载 


本 书 将 引领 谈 者 整体 了 解 Python 中 的 数据 分 析 过 程 、Python 数据 科学 栈 中 的 主要 库 ， 
并 讨论 如 何 使 用 各 种 Python 工具 有 效 地 分 析 、 可 视 化 和 处 理 数据 . 
读者 可 访问 http:/www.packtpub.com 并 角 过 个 人 账户 下 载 示 例 代 人 码 文 件 。 男 外 ， 在 
http://www.packtpub.com/support 中 注册 成 功 后 ， 我 们 将 以 电子 邮件 的 方式 将 相关 文件 有 友 与 
读者 。 
读者 可 根据 下 列 步 又 下 载 代 但 文件 。 
(1) 访问 www.packtpub.com， 利 用 电子 邮件 地 址 和 密码 登录 ， 或 注册 。 
(2) 选择 SUPPORT 选项 卡 。 
(3) 单 击 Code Downloads & Errata. 
(4) 在 Serach 文本 框 中 输入 书 名 。 
当 文 件 下 载 完 毕 后 ， 确 保 使 用 下 列 最 新 版 本 软件 解压 文件 来 。 
Q Windows 系统 下 的 WinRAR/7-Zip. 
D Mac 系统 下 的 Zipeg/iZip/UnRarX。 
O Linux 系统 下 的 7-Zip/PeaZip。 
男 外 ， 读 者 还 可 访问 GitHub 获取 本 书 的 代码 包 ， 对 应 网 址 为 https://github.com/ 
PacktPublishing/Become-a-Python-Data-Analyst。 此外， 读者 还 可 访问 https://github.com/ 
PacktPublishing/， 以 了 解 丰 是 的 代 公 和 视频 资源 。 


下 载 彩 色 图 像 


男 外 ， 我 们 还 进一步 提供 了 本 书 所 用 截图 /图 表 的 彩色 图 像 ， 读 者 可 访问 http://www. 
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packtpub.com/sites/default/files/downloads/BecomeaPythonDataAnalyst Colorlmages.pdf 进行 
下 载 。 


本 书 约定 


本 书 通过 不 同 的 文本 风格 区 分 相应 的 信息 类 型 。 下 面 通 过 一 些 示 例 对 此 类 风格 以 及 有 具 
体 合 义 的 解释 予以 展示 。 

代码 块 如 下 所 示 。 

# The largest heading 


## The second largest heading 
###H#H## The smallest heading 


A TASER i 28 5 EC er EY AE LIN, Ka SE aes, SOR TAN 


[default] 
exten => s,1,Dial (Zap/1| 30) 


exten => s,2,Voicemail 


(ul00) 
exten => s,102,Voicemail (b100) 


exten => 


1,1, Voicemail (s0) 


和 图 标 则 表示 较为 重要 的 说 明 事项 。 
图 标 则 表示 提示 信息 和 操作 技巧 。 


读者 反馈 和 客户 支持 


欢迎 痰 者 对 本 书 的 建议 或 意见 予以 有 反馈 。 对 此 , TEA PIE feedback@packtpub.com 发 送 邮 件 ， 
并 以 书 名 作为 邮件 标题 。 石 读者 对 本 书 有 有 任何 疑问 ， 均 可 友 远 邮件 全 questions@packtpub.com, 
我 们 将 竭诚 为 您 服务 。 厂 读 普 针对 东 项 技术 具有 专家 级 的 见解 ， 提 或 计划 扒 与 书籍 或 完 音 
菜 部 着 作 的 出 版 工作 ， 则 可 访问 www.packtpub.com/authors。 
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BUTERA EIR ERR, (BERKATE. WR WBRZ, 
无 论 是 文字 销 误 抑或 是 代码 错误 ， 还 望 不 音 赐教 。 对 此 ， 访 音 可 访问 http:/Awww.packtpub.com/ 
subtmit-errata， 选 取 对 应 书籍 ， 然 后 单 击 Errata Submission Form 超 链 接 ， 并 输入 相关 问题 
的 评 细 内 容 。 


版 权 须 知 


一 直 以 来 ,互联 网 上 的 版 权 问题 从 未 间断 ，Packt 出 版 社 对 此 类 问题 异常 重视 。 若 读者 
在 互联 网 上 友 现 本 书 任意 形式 的 副本 , 请 告知 网 络 地 址 或 网 站 名 称 , 我 们 将 对 此 了 予以 处 理 。 
关于 盗版 问题 ， 读 者 可 发 类 邮件 至 copyright@packtpub.com. 
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本 书 主要 介绍 基于 Python 的 数据 分 析 的 基本 概念 。 在 第 1 章 中 ， 我 们 将 学 习 如 何 安 
* Anaconda， 其 中 包含 了 本 书 所 用 的 全 部 软件 。 此 外 ， 本 章 还 将 引入 Jupyter Notebook, 
这 也 是 全 部 工作 的 计算 环境 。 相 应 地 ， 我 们 将 通过 有 具体 解雇 方案 帮助 谈 者 快速 简 握 相关 
La, 

本 章 主要 涉及 以 下 内 容 。 
Anaconda 及 其 所 处 理 的 问题 。 
QUA FETT ALI EBA. Ja Anaconda. 
通过 Jupyter Notebook 执行 计算 和 分 析 任 务 。 
Jupyter Notebook 中 一 些 有 用 的 命令 和 快捷 操作 。 


UU DU 


1.1 Anaconda 


针对 开 友 人 员 和 数据 科学 家 ，Anaconda Æ Python fet) —-T RH. BTR E 
理 和 环境 管理 工具 ， 进 而 使 得 科学 计算 、 数 据 科 学 、 统 计 分 析 和 机 磺 尝 习 中 的 包 管 理 和 
部 署 更 加 简单 。Anaconda 由 Continuum Analytics 推出 , 读者 可 访问 https:/Avww.anaconda. 
comydownload/ 人 免费 下 载 。 

Anaconda 是 一 个 工具 箱 ， 即 执行 Python 数据 分 析 任 务 时 的 一 个 工具 集 。 另 外 ， 恋 者 
也 可 免费 下 载 独立 的 工具 ， 但 在 后 续 操 作 中 ， 获 取 整 个 工具 箱 则 肯定 更 加 方便 。 这 也 坪 
Anaconda 的 用 武之 地 一 一 在 得 找 各 种 工具 并 将 其 安 儿 全 系统 的 过 程 中 ， 这 将 会 节省 大 量 
的 时 间 。 除 此 之 外 , 在 单独 安 狂 Python 包 时 , Anaconda 还 负责 处 理 所 产 生 的 包 依 赖 天 系 ， 
VDA Be FAE a ves TEES A [A] et 

当 访 问 https://www.anaconda.com/download/iY, 可 以 看 到 针对 不 同 操作 系统 的 各 种 下 
载 选项 ， 读 者 需要 根据 目 己 的 操作 系统 选取 相应 的 安 逆 程序 。 在 下 载 页 面 中 ， 访 者 将 
会 看 到 两 个 安装 程序 ， 即 Python 3.7 和 Python 2.7， 本 书 将 采用 Python 3.7， 如 图 1.1 
ARAN o 

F# Anaconda 软件 的 最 新 版 本 ， 并 将 其 保存 至 Downloads 文件 夹 中 。 
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C) ANACONDA. 


Anaconda Distribution 


The Words Most Popular PythowR Data Sctence Platform 


The open-source Anaconda Distribution is the easiest way to perform Python/R m i ; <a 
dete science and machine leaming on Linux, Windows, and Mac OS 其 With — | G | 
over Tl million users worldwide, it is the industry standard for developing audi J NumPy sry 

i 3 al or | n | Numba 


Testing, and taining on o single mechine, enabling moiaicwel data soemisis to: 7 y + 2 


* Quickly download 1500- Python/R deta science packages pandas | | 人 Vv 4p Datashader 
* Manage libraries, dependencies, and environments with Conda ; A 4 Bokeh aK HoboV hows J | 
è D and train machine leaming and deep leaming models with scikit- 
AERE and Theano ji i i ainiai ef. | H,0 TensorFlow CONDA 
è Analyze data with scalability and performance with Desk, NumPy. pandas, i na = = miis 一 
and Mumba 
* Visualize results with Motplotlib, Bokeh, Detosheder, ond Holoviews 


Se Windows | é macos | A Linux 


Anaconda 2018.12 for Windows Installer 


Python 3.7 version Python 2.7 version 


64-8it Graphical installer (614.3 MB) -Bit Graphical installer (560.6 MB) 
32-Bit Graphical installer (509.7 MB } 32-Bit Graphical installer (456.6 MB) 


O 注意 : 
鉴于 本 书 中 的 示例 运行 于 Windows 环境 下 ， 因 而 这 里 选择 针对 Windows 的 64 位 安 
42%. macOS 和 Linux 的 安装 过 程 也 基本 类 似 。 


Anaconda 的 安 逆 过程 较为 简单 ， 且 与 其 他 软件 的 安放 过 程 并 无 太 多 不 同 。 双 击 .exe 
文件 ， 并 在 当前 系统 中 安装 Anaconda 软件 。 相 关 步 骤 简 单 明 了 ， 另 外 ， 在 软件 的 安装 过 
程 中 ， 还 会 显示 相应 的 提示 信息 。 具 体 安 北 步 怠 如 下 。 

C1) 蛙 击 第 一 个 安 疙 程序 对 话 框 中 的 Next 按钮 。 

(2) 在 浏 吃 了 软件 的 相关 条 球 和 条 件 后 ， 蛙 击 许 可 协议 中 的 1Agree 按钮 。 

(3) 在 选项 中 选择 Just Me 并 单 击 Next 按钮 。 

(4) 选取 默认 的 安 冯 目 标 文件 夹 并 单 击 Next 按钮 。 

(5) 随后 将 询问 环境 变量 ， 以 及 是 合 需 要 将 Anaconda HEM AKU Python. XH 
后 单 击 Install 按钮 。 

(6) RAR. Pih AR ENT X AEH H Finish 按钮 。 
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1.2 Jupyter Notebook 


Jupyter Notebook 是 一 个 Web 应 用 程序 ， 可 创建 、 共 盏 文档 。 访 文档 中 包含 了 实时 代 
但 、 等 式 、 可 视 化 结 末 以 及 解释 性 文本 内 容 ， 其 用 途 包 括 数 据 清 理 和 转换 、 数 值 模拟 、 
统计 建 模 、 机 需 学 习 等 。Jupyter Notebook 类 似 于 一 个 画布 (Canvas) 或 环境 ， 可 使 用 编 
程 语言 (在 当前 示例 中 是 Python) 执行 计算 并 以 非 弟 方便 的 方式 显示 结 来 。 

如 果 读 者 正在 进行 某 种 分 析 工 作 ， 那 么 Jupyter Notebook 是 非常 方便 的 一 一 其 间 通 常 
会 包 人 台 解 释 性 文本 、 产 生 结 果 的 代 介 和 可 视 化 结果 ， 这 些 都 显示 在 Jupyter Notebook 中 。 
据 此 ， 使 用 任何 编程 语言 ， 特 别 是 Python， 它 都 是 一 种 非 沼 方便 的 分 析 工 作 方 法 。Jupyter 
M HEEF 2014 年 Python 项 目 。 现 在 ， 它 已 经 发 展 到 支持 多 种 编程 语言 的 交互 式 数 据 
科学 和 科学 计算 工具 ， 因 此 可 以 将 Jupyter Notebook 与 许多 其 他 编程 语言 一 起 使 用 (多 达 
20 种 语言 ) 。Jupyter 这 一 名 称 来 日 Julia、Python FAR, Xt Æ Jupyter Notebook 最 初 文 
持 的 3 种 编程 语言 。 


1.2.1 创建 自己 的 Jupyter Notebook 


当局 动 Anaconda 并 开启 Jupyter Notebook 时 ， 可 从 安装 程序 列表 中 单 击 Anaconda 
Prompt. Anaconda Prompt 可 视 为 一 个 终 顺 〈Terminal) ， 用 户 可 在 其 中 输入 相关 命令 。 
下 面 首 先 在 桌面 生成 一 个 名 为 PythonDataScience 的 文件 来， 该 目录 将 存储 在 Jupyter 
Notebook 中 为 本 书 编写 和 运行 的 所 有 Python 代码 。 

一 旦 打开 终端 ， 可 输入 cd Desktop/PythonDataScience 命令 并 按 Enter 键 访问 
PythonDataScience。 为 了 局 用 该 日 录 中 的 Jupyter Notebook 应 用 程序 ， 可 输入 jupyter 
notebook 命令 并 按 Enter 键 。 这 将 局 动 当 前 应 用 程序 ， 并 可 在 浏 宽 堪 的 选项 卡 中 看 到 该 应 
用 程序 的 主 寞 面 ， 如 图 1.2 所 示 。 


_ http://localhost8888/tree 


= jupyter 


Files Running Clusters 
Select items to perform actions on them. 
(JO = ml 
[| Æ FirstPractice ipynb 


O & Untitled.ipynb 


“ 4。 Python 数据 分 析 师 修 烁 之 道 


图 1.2 中 包含 了 3 个 选项 卡 。 在 Files 选项 卡 中 ,可 以 看 到 文件 来 内 包含 的 所 有 文件 ; 
在 Running 选项 卡 中 , 可 以 看 到 处 于 运行 状态 的 程序 , 如 Terminal 或 Notebook; 在 Clusters 
选项 卡 中 ， 则 显示 了 与 并 行 计 算 相 关 的 细 贡 内容， 但 本 书 将 不 会 涉及 这 一 特性 。 

Files 选项 卡 则 是 本 书 所 用 的 主 选项 卡 。 当 创建 新 的 Jupyter Notebook 时 ， 可 执行 New | 
Python 3 Notebook #74, 40/4 1.3 Aras. 


di Jupyter Untitled’ Last Checkpoint: an hour ago (autosaved) 


File Edit View insert Cel Kemel Help 


a +t x & BR + NRun E © h Code 


图 1.3 
这 将 打开 新 的 文件 ， 即 开始 编码 并 运行 Python 代码 的 Jupyter Notebook. 


1.2.2 Jupyter Notebook HPA 


Jupyter Notebook 包 侣 了 一 些 较为 有 用 的 界面 ， 并 可 在 操作 过 程 中 显示 一 些 备 要 的 信 
思 和 提示 。 此 处 访问 Help 命令 , 单 击 User Interface Tour, 并 快速 浏览 一 下 Jupyter Notebook 
中 的 界面 ， 如 图 1.4 所 示 。 


Ş jupyter i Last Checkpoint: a few seconds ago (unsaved changes) 


x © 1h e b MHRun E 


图 1.4 


在 Jupyter Notebook 中 的 主页 面 中 ， 包 含 了 以 下 主 界 面 。 

D 标题 (1) : 表示 为 对 应 的 文件 名 ， 用 户 还 可 对 Jupyter Notebook 的 文件 名 进行 
修改 。 

O KA (2): 与 其 他 果 面 应 用 程序 类 似 ， 玉 单 栏 中 包含 了 不 同 的 操作 。 

O TRF G): 位 于 菜单 栏 下 方 ， 其 中 包含 了 一 些小 图 标 ， 进 而 执行 某 些 第 见 的 
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操作 ， 如 保存 文件 、 分 割 单 元 、 粘 贴 单 元 、 移 动 单 元 等 。 
”模式 指示 帮 A) : PFS A. Jupyter Notebook 包含 了 两 种 模式 ， 即 
Edit 模式 和 Command 模式 。 其 中 ，Command 模式 中 涵闸 了 许多 可 用 的 键盘 快 
二 操作 。 在 该 模式 中 ， 指 示 右 区域 并 不 会 显示 任何 图 标 ， 且 需要 对 文件 目 壬 进 
行 操作 ， 如 你 存 文件 、 复 制 和 烙 贴 单元 守 。Edit MAU ITA ESET BoP 
编写 代 公 或 文本 。 当 采用 Edit 模式 时 ， 将 会 在 指示 占 区 域 看 到 一 个 馈 笔 图 标 。 
O 注意 : 
Jupyter Notebook 由 两 种 单元 类 型 构成 ， 即 代码 单元 和 文本 单元 。 当 在 Edit 模型 下 ， 
所 选单 元 的 边框 呈现 为 绿色 。 当 从 Edit 模式 返回 Command 模式 时 , 可 按 Esc 键 或 CtrlHM 
快捷 键 。 此 外 ， 还 存在 多 种 可 用 的 键盘 快捷 方式 ， 读 者 可 访问 Help 命令 查看 快捷 操作 
列表 。 


D AZIR (5) : 显示 系统 的 计算 进程 的 状态 。 当 中 上 断 进 程 中 的 计算 时 ， 可 使 
用 工具 栏 中 的 stop 按钮 。 

Oh ”消息 区 域 (6) : 该 区 域 将 显示 相关 消息 ， 如 saving the file, interrupting the kernel 
等 。 在 请 恩 区 域 中 ， 用 户 可 看 到 所 执行 的 操作 。 


1.3 使 用 Jupyter Notebook 


下 和 面 打开 新 的 Jupyter Notebook， 生 成 新 的 Python 3 Jupyter Notebook， 并 将 其 命名 为 
FirstPractice。 如 前 所 述 ，Jupyter Notebook 由 单元 构成 ， 其 中 包含 了 两 种 单元 类 型 ， 即 代 
但 单元 和 文本 单元 。 每 次 打开 Jupyter Notebook 时 ， 将 会 显示 代码 单元 ， 用 户 可 于 其 中 执 
行 任 何 Python 语句 。 


1.3.1 在 代码 单元 格 中 运行 代码 


本 市 将 尝试 运行 一 些 简 单 的 代码 语句 ， 并 学 习 如 何在 代码 和 文本 间 调 整 单元 类 型 。 
对 此 ， 可 在 第 一 个 代码 单元 格 中 输入 1+1 并 执行 该 代码 。 当 通过 单 击 run cell 按钮 运行 单 
元 格 中 代码 时 ， 将 会 在 代码 单元 格 下 方 看 到 一 行 输出 结果 ， 如 图 1.5 所 示 。 

接 下 来 生成 一 个 变量 a， 将 其 赋值 为 10 并 运行 代码 。 虽 然 该 变量 已 被 创建 ， 但 考虑 
到 尚未 编写 任何 代码 计算 该 变量 ， 因 而 无 法 看 到 相应 的 输出 结果 。 当 执行 这 一 条 语句 时 ， 
如 果 使 用 到 该 变量 ， 例 如 ， 将 该 变量 加 1， 运 行 代码 后 将 会 看 到 如 图 1.6 所 示 的 结果 。 


TE Python 数据 分 析 师 修炼 之 道 


Kemel Help 


Ron E C h Code 


图 1.6 
下 面 考查 基于 变量 i 的 for 语法 示例 ， 如 图 1.7 所 示 。 


In [13]: |for i in range {10}: 


print (i 


Vi Po he co 


4 


im Oo -J om on 


图 1.7 


当 对 应 值 位 于 range(10) 时 ， 上 述 代码 将 通知 Jupyter Notebook 输出 i 值 ， 对 应 结果 如 
图 1.7 所 示 。 


1.3.2 ”在 文本 单元 格 中 运行 markdown 语法 


之 前 曾 谈 到 ， 单 元 格 的 默认 关 型 是 代码 单元 格 ， 并 可 于 其 中 编写 Python KAA. BR 
此 之 外 ， 为 一 种 类 型 则 是 文本 单元 格 ， 并 可 用 于 编写 文本 内 容 ， 在 当前 输出 结果 下 方 的 
单元 格 中 ， 可 笑 试 输入 This is regular text。 当 执行 Cell | Cell Type | Markdown 命令 时 ， 即 
可 通知 Jupyter Notebook， 当 前 内 容 并 非 Python 代码 ， 而 是 文本 内 容 。 运 行 代码 后 ， 将 会 
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上 友 现 输出 结果 表示 为 文本 ， 且 与 我 们 输入 的 内 容 保持 一 致 ， 如 图 1.8 Ara. 


This is regular text 


图 1.8 


当 采 用 markdown 语法 时 ， 可 通过 多 种 方式 格式 化 文本 。 如 果 读 者 对 此 感到 耻 生 ， 可 
查看 Help| Markdown， 即 GitHub 帮助 页 面 。 


Oss. 


Jupyter Notebook 采用 的 markdown 与 GitHub 中 的 markdown 保持 一 致 。 


文本 的 样式 和 格式 十 分 丰富 , 读者 可 访问 https://help.github.com/articles/basic-writing- 
and-formatting-syntax/ 答 看 全 部 信息 。 本 章 仅 讨论 较为 重要 的 标题 内 容 。 

当 创 建 一 个 标题 时 ， 需 要 在 标题 文本 前 添加 一 个 “# ”符号 〈1 一 6 个 “#” 符 写 ) 。 
相应 地 ，“#” 符 号 的 数量 决定 了 标题 的 大 小 ， 其 中 ，1 一 6 个 “# ”符号 分 别 对 应 于 了 最 大 
和 最 小 尺寸 的 标题 ， 如 下 所 示 。 


# The largest heading 
## The second largest heading 
###### The smallest heading 


图 1.9 显示 了 上 述 语法 的 输出 结果 。 


The largest heading 


The second largest heading 


The smallest heading 


图 1.9 
当 在 代码 单元 格 中 运行 上 述 内 容 时 ， 将 会 得 到 一 系列 的 Python mA. WWR, R 
们 需要 看 到 具有 一 定格 式 的 文本 内 容 ， 因 而 需要 通知 Jupyter Notebook， 通 过 将 单元 闫 型 
标记 为 markdown， 对 应 内 容 为 文本 。 
1. 样式 和 格式 
此 外 ， 我 们 还 可 科 试 引入 其 他 格式 ， 如 黑体 、 和 斜 体 、 删 除 线 以 及 黑体 -斜体 。 图 1.10 
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SEAN SASTRY EN PU ET DA TE 


syntax Keyboard Example Output 
shortcut 


commanda/control t*This is hold text** This is bold text 
+b 


command/control *This text is This text Is 


+i . AE italicized 
Strikethrough 
‘*This text is This text is 


extremely extremely 
important*? important 


图 1.10 


万 外 ，“> ”符号 指定 了 引用 内 容 。 委 试 利用 以 下 语法 运行 markdown 单元 。 


In the words of Abraham Lincoln: 
> Pardon my French 


对 应 结果 如 图 1.11 Aras. 


In the words of Abraham Lincoln: 


Pardon my French 


图 1.11 


其 中 ， 文 本 的 样式 和 格式 保持 一 致 ， 但 引用 的 文本 内 容 包含 了 一 定 的 缩 进 。 

2. 列表 

在 一 行 或 多 行 间 使 用 “-” 或 “* ”可 创建 项 目 列表 形式 。 此 外 ， 还 可 使 用 1、2、3 
生成 带 有 序号 或 有 序 的 列表 ， 如 下 所 示 。 


- George Washington 
— John Adams 
- Thomas Jefferson 
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1. James Madison 
2. James Monroe 


3. John Quincy Adams 
当 运 行 上 述 markdown 语法 时 ， 对 应 结果 如 图 1.12 所 示 。 


- George Washington 
« John Adams 
« Thomas Jefferson 


1. James Madison 
2. James Monroe 
3. John Quincy Adams 


图 1.12 


读者 可 访问 Jupyter Notebook 网 站 ， 其 中 包含 了 更 为 丰 曙 的 样式 和 格式 语法 。 
1.3.3 ”键盘 快捷 操作 


当 每 次 需要 运行 单元 格 或 者 将 代码 单 匹 格 转 换 为 markdown 单元 格 时 , HU AY BAER 
作 使 得 整个 过 程 异常 烦 天 。 为 了 简化 任务 ，Jupyter Notebook 中 提供 了 大 量 可 用 的 键盘 快 
捷 操 作 。 下 面 考 得 较为 重要 的 一 些 操作 。 

例如 ， 当 运行 一 个 单元 格 时 ， 如 计算 1+2， 则 可 使 用 Alt+Enter 快捷 键 ， 衣 快捷 方式 
将 运行 单元 格 中 的 代码 ， 并 在 输出 结果 下 方 创建 一 个 新 的 单元 格 。 但 是 ， 如 果 仪 希望 运 
行 计算 过 程 ， 则 可 使 用 Ctrl+Enter 快捷 键 ， 这 使 得 Jupyter Notebook 运行 该 单元 格 中 的 代 
伺 ， 并 显示 输出 结果 ， 但 并 不 会 生成 新 的 单元 格 。 如 果 打 算 在 当前 单元 格 下 方 插 入 新 的 
单元 格 ， 则 可 按 B 键 ; ZF A 键 则 会 在 当前 单元 格 上 方 创建 新 的 单元 格 。 当 在 Jupyter 
Notebook 进行 交互 操作 时 ， 这 将 十 分 有 用 ， 其 则 需要 生成 多 个 单元 格 ， 进 而 包含 更 多 的 
TI 
O 提示: 

读者 可 通过 Help | Keyboard Shortcuts 命令 来 查看 Jupyter Notebook 中 完整 的 快捷 方式 
列表 。 

另 一 种 较为 有 用 的 操作 方式 是 在 代码 单元 和 markdown $ 7c lal EAT He KR. OR i BSA 
代码 单元 转换 为 文本 单元 ， 可 按 M 键 ， 这 将 把 Edit 模式 转换 为 Command 模式 。 除 此 
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之 外 ， 如 果 用 户 当 前 位 于 Command 模式 ， 目 希望 转换 至 代码 单元 或 Edit 模式 ， 则 可 按 
Esc 键 。 


1.4 ABP) 4 


AEST ZR T Anaconda， 同 时 还 安装 了 本 书 所 需 的 全 部 软件 〈 包 含 于 Anaconda ¥) . 
AIF RAINE Y Jupyter Notebook 及 其 基本 的 操作 方式 。 其 中 涉及 代码 单元 、markdown 
单元 ， 以 及 与 Jpyter Notebook 协同 工作 时 的 一 些 快捷 操作 ， 以 使 工作 流 变 得 更 加 高 效 。 

第 2 童 将 讨论 NumPy， 它 是 执行 数值 计算 时 的 核心 库 ， 同 时 也 是 PythonX 系统 中 每 
个 科学 计算 项 目的 核心 内 容 。 
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本 章 将 讨论 NumPy， 这 是 一 个 Python 编程 语言 库 。 此 外 ， 我 们 还 将 学 习 NumPy 中 
较为 重要 的 对 象 类 型 一 一 数组 ， 其 间 还 会 涉及 数组 的 协同 工作 方式 、 重 要 的 方法 和 属性 。 
随后 ， 本章 还 将 应 用 所 学 的 知识 考 僵 如 何在 实际 操作 过 程 中 使 用 NumPy. 在 本 章 的 结尾 ， 
读 阁 还 将 了 解 Python 数据 科学 栈 中 的 其 他 库 ， 如 Matplotlib。 相 应 地 ， 本 草 将 辅 以 相 天 未 
例 进一步 曾 明 NumPy 的 重要 性 及 其 所 处 理 的 问题 。 

本 章 主 要 涉及 以 下 主题 。 

NumPy 简介 。 

NumPy 数组 构建 、 方 法 和 属性 。 
基于 数组 的 数学 基础 知识 。 
数组 的 操控 方式 。 

通过 NumPy 执行 模拟 操作 。 


LI L ee L 


2.1 NumPy 简介 


NumPy, 也 称 作 Python 的 同 量化 解决 方案 , 是 Python 语言 中 执行 科学 计算 的 数据 包 。 
Pale, RATE VAG a oe EHR R: 此 外 ， 相 比 于 基本 的 Python 功能 ， 还 可 执行 快速 的 
数学 计算 。 NumPy 是 大 多 数 Python 数据 科学 生态 圈 中 的 基础 内 容 。 Python 中 其 他 可 用 的 
数据 分 析 库 还 包括 scikit-learn 和 pandas， 且 均 依 顿 于 NumPy。 以 下 内 容 展示 了 NumPy 
中 的 一 些 高 级 特征 。 

D è NumPy 提供 了 一 些 较为 局 级 的 《广播 ) AA. 

O FKL A SREB Sek, WC. CH Fortran 语言 。 

Do A UT ZR TETRA SARA AST RL, TU ee (FT) ROLE as (RNG) 。 

AEE, MRABAT FE HE UR AY) re PEE TT, ELI TRE A eB re HY BOK, 
Wu) ay Ses Python W -5 ERR JE PIA A RET SEK 

接 下 来 通过 一 些 示 例 讨 论 NumPy 所 处 理 的 问题 类 型 及 其 使 用 原因 。 假设 对 于 一 些 与 
距离 和 时 间 相 天 的 数据 ， 需 要 对 此 进行 计算 以 得 到 对 应 的 速度 。 这 里 ， 一 种 方案 是 在 
Python 中 生成 一 个 空 表 ， 编 与 for 循环 并 与 入 结果 ， 即 距离 除 以 时 间 ， 进 而 生成 最 终 的 速 
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度 值 ， 如 图 2.1 所 示 。 


In [1]: | distances = [16, 15, 17, 26, 20] 
times = [0.3, 0.47, 0.55, 1.20, 1.0 


In [2]: | # Calculate speeds with Python 
speeds = [| 
for i in range(len(distances)): 
speeds.append(distances[i]|/times[i]) 


speeds 


[ 33. 333333333333336, 
31.914893617021278, 
36.969696969696967， 
21. 666666666666668, 
20.0] 


图 2.1 


Al 2.1 wa SAR RIAIR, BEARR. 4A, EEN A 
Python 化 的 方式 执行 列表 推导 。 因 此 ， 如 案 使 用 [dit for dt in zip(distances, ttmes)]， 而 非 
for 循环 ， 我 们 将 会 得 到 相同 的 结果 ， 如 图 2.2 所 示 。 


In [3]: | [d/t for d,t in zip(distances, times) | 


Out[3]: [33.333333333333336, 
31.91489361/0212/8, 


38. 909090909090907 , 
21.6656666666666668, 
20.0] 


图 2.2 


对 于 给 定 的 数据 ， 这 也 是 解决 速度 计算 问题 的 传统 方法 ， 而 之 前 的 方法 则 是 Python 
中 所 采用 的 基本 方法 。 

下 面 根据 购物 分 析 但 看 男 一 个 示例 ， 也 就 是 说， 根据 商品 尽量 和 每 件 商 品 的 价格 ， 
计算 购买 总 额 。 因 此 ， 为 了 得 到 全 部 购买 总 额 ， 需 要 将 每 件 商品 数 量 乘 以 对 应 的 价格 ; 
在 乘法 计算 完毕 后 ， 需 要 再 次 执行 加 法 运算 。 在 Python H, 一 般 通 过 以 下 代码 予以 表示 。 


sumtla*p (or g.p in 2ipiproduck quantities, prices) |} 


首先 ， 代 但 中 使 用 了 一 个 sum 函数 ， 即 数量 乘 以 价格 ; Bila, A Saree WAZA, 
可 生成 一 个 列表 推 寻 ， 这 也 十 在 Python 中 处 理 此 关 问 题 的 利 见 做 法 。 此 时 ， 如 案 运 行 该 
单元 ， 对 应 结 琳 为 137.1， 即 数量 和 价格 集合 中 的 全 部 总 计 络 末 ， 如 图 2.3 所 示 。 
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: | product_quantities = [13, 5, 6, 16, 11] 
prices = [1.2, 6.5, 1.0, 4.8, 5.0 
total = sum([q*p for q,p in zip(product_quantities, prices)]) 


total 


> SP a dk 


图 2.3 


一 种 较 好 的 方法 是 ， 通 过 distances/times 获得 速度 值 ， 并 将 第 二 个 问题 中 的 总 量 定 义 
为 product quantities FLA prices 列表 ， 并 得 到 乘法 的 求 和 结果 。 

然而 ， 当 运行 单元 代码 时 ， 将 得 到 一 条 错误 信息 ， 其 原因 在 于 ，Python 并 不 文 持 列 
表 间 的 除法 运算 ， 以 及 列表 则 的 乘法 运算 一 一 但 这 正 古 NumPy 的 用 武之 地 ， 即 我 们 毅 
说 的 同 量 化 计算 。 此 处 ， 同 量化 是 指 对 数组 进行 操作 ， 如 对 象 或 列表 ， 抑 或 逐 元 系 执 行 
PRIE. 


2.2 NumPy 数组 


NumPy 的 主要 对 象 是 一 个 齐 次 多 维 数 组 。 数 组 本 质 上 是 由 相同 类 型 的 元 素 (通常 是 
数字 ) 组 成 的 表 ， 并 通过 正 整数 元 组 索引 。 在 NumPy 数组 中 ， 索 引 一 般 从 0 开始 计数 。 
因此 ， 第 1 个 元 系 为 元 系 0; 第 2 个 元 系 表 示 为 元 系 1， 以 此 类 推 。 在 NumPy F, R 
也 称 作 轴 Caxe) ; 轴 数 或 维度 也 称 作 数组 的 秩 或 维 数 。 在 将 NumPy 导入 Jupyter Notebook 
中 时 ， 可 使 用 numpy as np 这 一 类 导入 语句 。 


2.2.1 在 NumPy 中 创建 数组 


在 Python 中 ， 以 下 两 种 方法 可 用 于 创建 数组 。 

”从 列表 中 创建 数组 。 

O {EH NumPy 提供 的 内 建 函 数 。 

1. 从 列表 中 创建 数组 

当 从 列表 中 创建 NumPy 数组 时 ， 可 使 用 np.array 函数 。 前 述 示 例 中 的 列表 ， 如 
distances, times, product quantities、Pprices， 将 通过 np.array 图 数 和 被 转换 为 数组 。 对 此 ， 
可 针对 每 个 列表 运行 以 下 代码 行 。 


distances = np.array (distances) 


times = np.array (times) 
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product quantities — np-array [product quantities) 

prices = np.array (prices) 

上 述 示例 将 把 Python 列表 中 的 对 象 转换 为 NumPy 数组 。 当 考查 这 一 新 对 象 时 ， 可 
在 单元 中 调用 distances 对 象 名 ， 进 而 运行 该 对 象 。 随 后 将 会 看 到 如 图 2.4 所 示 的 数组 。 


In [9]: distances 


Out[9]: array([10, 15, 17, 26, 20]) 


图 2.4 


通过 运行 type(distances) 代 人 码 , 还 可 全 看 该 对 象 的 类 型 。 当 在 单元 中 运行 上 述 代 人 码 时 ， 
将 会 看 到 如 图 2.5 AANA aA GAR, BU XT ARS Ae 。 


In [10]: type(distances ) 


Out[1@]: numpy.ndarray 


图 2.5 

HH, Python 显示 了 一 个 numpy.ndarray REAR. XE, n 表示 为 n 维 数 组 ， 也 
称 作 一 维 数 组 ， 有 时 可 将 其 称 为 向 量 。 
O sa. 

NumPy 向 量 和 一 维 数组 具有 相同 的 含义 。 若 传递 np.array()( 即 列表 的 列表 ) ， 则 会 

创建 一 个 二 维 数组 ; 如 果 传 递 一 个 列表 的 列表 ， 将 会 生成 一 个 三 维 数组 ; 等 等 。 

下 面 考 查 另 一 个 示例 ， 以 便 更 好 地 理解 如 何 通过 一 个 列表 的 列表 创建 一 个 二 维 数组 ， 

如 图 2.6 所 示 。 


In [11]: |A = np.array([[1, 2], [3, 4]]) 
A 


Out[11]: array([[1, 2], 
[3, 4]]) 


图 2.6 
这 里 ， 列 表 包 含 了 两 个 元 素 ， 每 一 个 元 素 都 表示 为 外 部 列表 中 的 列表 本 身 ， 且 每 个 
列表 均 包 含 两 个 元 系 。 因 此 ， 这 可 定义 为 一 个 包含 两 行 、 两 列 的 二 维 数 组 。 有 时， 也 可 
将 二 维 数组 称 作 矩阵 ， 即 2x2 矩阵 。 
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2. 从 内 置 的 NumPy 函数 中 创建 数组 


NumPy 目 身 也 提供 了 一 些 图 数 可 创建 数组 。 KSINR, 即使 在 未 确定 数组 元 系 值 的 
情况 下 ， ea 对 此 ， 有 必要 通过 默认 值 生 成 数组 。 下 面 对 这 一 类 较 
为 重要 的 函数 进行 逐一 考查 。 

首先 是 np.zeros 该 函数 将 生成 包含 0 值 的 NumPy 数组 。 作 为 可 选项 ， 还 可 指 
定数 组 的 类 型 。 在 当前 示例 中 ， 参 数 类 型 定义 为 dtype=int， 也 就 是 说 ， 数 组 的 全 部 元 素 
均 为 整 型 ， 如 图 2.7 所 示 。 


In [12]: | # Create a Length-1@ integer array filled with zeros 
np.zeros(1@, dtype=int) 


Out[12]: array([@, Ə, Ə, Ə, Ə, O, Ə, Ə, Ə, @]) 


图 2.7 


在 上 述 示例 中 ，np.zeroes(10, dtype=int) 创 建 了 一 个 包含 10 个 整数 的 数组 。 最 终 ， 我 
们 得 到 了 包含 10 个 0 值 的 整 型 NumpPy 数组 。 

接 下 来 是 np.ones 函数 。 作 为 可 选项 ， 可 同 该 函数 中 传递 shape 函数 ， 表 示 每 个 维度 
中 元 素 的 数量 ,这 里 , 第 一 个 维度 中 赋值 为 3, 第 二 个 维度 赋值 为 5, 参数 类 型 定义 为 float， 
如 图 2.8 所 示 。 


In [13]: # Create a 3x5 floating-point array filled with ones 
np.ones(shape=(3, 5), dtype=float) 


Out[13]: array([[1., 1., 1., 1., 1.], 
a a oo oe T 
[Ts Wow, Goss Teun T 


图 2.8 
当 运 行 np.ones(shape=(3, 5), dtype=floab 时 ， 将 得 到 一 个 3x5 矩阵 ， 且 针对 每 个 float 
RINT RIAG 1。 
NumPy 中 还 设置 了 一 个 非 间 有 用 的 函数 ， 可 于 其 中 创建 数组 并 利用 线性 序列 进行 需 
元 。 相 应 地 ， 存 在 以 下 两 种 方式 可 创建 线性 序列 。 
O XH np.arange 国 数 时 ， 和 需要 提供 一 个 起 始点 、 结 束 点 或 数字 ， 以 及 针对 每 次 
迭代 的 step 值 。 如 果 未 提供 step 信 ， 则 默认 值 为 1， 如 图 2.9 所 示 。 


In [14]: # Create an array filled with a Linear sequence 
# Starting at 6, ending at 20, stepping by 2 
np.arange(start=08, stop=20, step=2) 


Out[14]: array([ 8, 2, 4, 6, 8, 10, 12, 14, 16, 18]) 


图 2.9 
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当前 示例 调用 了 一 个 序列 ， 其 中 ，start 点 为 0，stop 点 为 20，step 值 为 2。 当 运行 单 
元 时 ， 将 得 到 一 个 NumPy 数组 (起 始 于 0, step 值 为 2) 。 该 过 程 持 续 进行 ， 直 至 到 达 
结束 点 。 需 要 注意 的 是 ， 此 处 并 未 包含 结束 点 或 结束 值 。 

口 “ 另 一 种 序列 创建 方法 是 使 用 np.linspace 函数 。 对 此 ， 需 要 提供 一 个 下 限 值 、 一 

个 上 限 值 ， 以 及 二 者 间 均 匀 间 隔 的 数值 的 数量 。 与 图 2.9 中 的 np.arange 函数 不 
同 ， 该 函数 中 指定 了 相应 的 上 限 值 ， 如 图 2.10 所 示 。 


In [15]: |# Create an array of 2@ values evenly spaced between Ə and 1 


np.linspace(@, 1, 26) 


Out[15]: array([@. » 8.05263158, 6.10526316, 0.15789474, @.21052632, 


@.26315789, @.31578947, @.36842105, @.42105263, @.47368421, 
@.52631579, @.57894737, @.63157895, @.68421053, 9@.73684211, 
@.78947368, @.84210526, @.89473684, @.94736842, 1. 1) 


图 2.10 
在 当前 示例 中 ， 我 们 得 到 一 个 0 一 1 IAPS) CE 1) ; PIRI A (ee ESB, 
共计 20 个 值 。 
2.2.2 数组 的 属性 


NumPy 中 的 数组 包含 了 多 种 属性 , 本 市 将 考 合 Python 中 较为 午 要 且 经 党 使 用 的 3 个 
属性 。 对 此 ， 首 先 创建 一 个 float 类 型 的 3x4 数组 ， 日 全 部 值 均 为 1， 如 图 2.11 所 示 。 


In [16]: 


— 


= np.ones(shape=(3, 4), dtype=float) 


= 
= 


Gutriecl: array([[i.; ds, 1: 
Pit: ivo i 
Ie; Bes fe 


图 2.11 


其 中 ， 第 一 个 属性 是 维 数 ， 并 可 通过 Andim 属性 查看 数组 的 维度 。 在 当前 示例 中 ， 
数组 的 维 数 为 2。 对 于 shape 来 说 ， 可 采用 A.shape 属性 获取 每 个 维度 中 数值 的 数量 。 具 
体 而 言 ， 第 一 个 维度 包含 了 3 个 数值 ， 第 二 个 维度 中 包含 了 4 个 值 。 最 后 ，size 表示 数组 
中 所 包含 的 全 部 元 素数 量 。 对 此 ，A.size 属性 表示 数组 中 元 素 的 总 体 数量 ,在 当前 示例 中 
为 12。 
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2.2.3 数组 中 的 基本 数学 运算 


表面 在 介绍 NumPy 数组 时 曾 讨 论 了 列表 中 的 distances 和 times 什 ， 下 面 通 过 数组 方 

式 执 行 一 些 较为 基本 的 数学 运算 。 如 前 所 述 ， 一 种 较 好 的 方法 是 通过 distances 除 以 times 

一 方式 计算 speeds。 这 可 视 为 是 一 种 癌 量 化 操作 ， 并 可 通过 NumPy 数组 予以 实现 。 如 

果 将 speeds Xf Rize MW distances/times, NumPy 将 逐个 元 辫 地 执行 该 除法 运算 , 即 回 量化 
操作 ， 如 图 2.12 所 示 。 


In [17]: A.ndim 


Out[17]: 2 


In [18]: A.shape 


Out[18]: (3, 4) 


In [19]: |A.size 


Out[19]|: 12 


图 2.12 


当 运 行 单 元 格 时 ，Numpy 将 计算 10/0.3, 15/0.47 等 ， 进 而 获得 NumPy 数组 中 的 速 
上 度 问 量 。 另 一 个 操作 示例 则 是 计算 product quantities 与 prices 之 和 。 对 此 ， 可 创建 另 一 个 
名 为 values 的 数组 ， 表 示 product quantities FLA prices ZA. ba, ASMA, FY 
将 value 辣 量 中 的 所 有 元 系 相 加 ， 如 图 2.13 所 示 。 


In [20]: speeds = distances/times 
speeds 


Out[2@]: array([33.33333333, 31.91489362, 30.90909091, 21.66666667, 20. 


图 2.13 


3847 (USC, OVA ZR AREY 15.6 CBW 13*1.2) ~ 32.5 CBN 5*6. 5) 等 ， 这 表 
示 为 回 量 values， 进 而 得 到 总 计 和 结果， 也 就 是 说 ，values 中 所 有 元 系 之 和 。 这 一 类 操作 
NumPy 子 以 实现 ， 如 图 2.14 所 示 。 

下 面 考 租 更 为 复杂 的 例 于 , 并 创建 另 一 个 回 量 或 NumPy 数组 。 具体 来 说 , x 中 的 start 
值 为 0，stop 值 为 20，step 值 为 2， 如 图 2.15 所 示 。 
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values = product_quantities*prices 
total = values.sum() 

print(values) 

total 


[15.6 32.5 6. 48. 55. ] 


157.1 


图 2.14 


In [22]: x = np.arange(start=0, stop=20, step=2) 
X 


Out[22]: array([ 9, 8 16, 12, 14, 16; 18]) 


网 2.15 
当 运 行 代码 单元 时 , 将 得 到 一 组 0 一 18 的 数字 。 当 采 用 NumPy 数组 执行 基本 操作 时 ， 
此 关 操 作 通 第 以 逐个 元 率 的 方式 进行 。 
例如 ， 硅 问 当 前 同 量 加 1， 相 应 结果 表明 ,原始 数组 中 的 每 个 元 厅 均 会 加 1。 类 似 地 ， 
SA) He 2 时 ， 数 组 的 每 个 元 系 均 会 于 以 2， 如 图 2.16 所 示 。 据 此 ， 我 们 可 执行 
诸如 加 、 减 、 乘 、 除 这 一 类 基本 的 数学 运算 。 
In [23]: 


Out[23]: array([ 1, 3, 
In [24]: 
Out[24]: array([ ©, 4, 8, 12, 16, 20, 24, 28, 32, 36]) 


In [25]: |x/2 


QUEL 25 i= array([O., 1s; 2iy. Say 4e; Seg Gey Fay Big 9] 


图 2.16 


除 此 之 外 ，NumPy EIEH S — MEHRA, {FA ROCHA, APR RU EB ZA 
MEMEH, ALA SrcR TMT. BGO, UR mk x 中 每 个 元 系 的 正路 什 ， 抑 或 每 
个 元 素 的 指数 ， 则 可 执行 np.sin(Xx) 和 np.exp(x)。 当 运行 代码 单元 时 ， 将 得 到 如 图 2.17 所 示 
的 结果 。 其 中 ，sin 函数 应 用 于 每 个 元 系 上 。 类 似 地 ， 指 数 函 数 也 同样 应 用 于 每 个 元 条 上。 

同样 ， 我 们 也 可 以 执行 对 数 和 合并 计算 。 图 2.18 中 显示 了 数组 x+l 的 目 然 对 数 和 平 
方 根 计算 结果 ， 且 均 以 逐个 像 系 的 方式 进行 。 
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In [26]: # Universal functions 
np.sin(x) 


Out[26]: array([ ©. , @.90929743, -@.7568025 , -@.2794155 , 6.98935825， 
-@.54402111, -@.53657292, ©.99060736, -0.28790332, -@.75098725]) 


In [27]: np.exp(x) 


Out[27]: array([1.00000000e+00, 7.38995610e+00, 5.45981500e+01, 4.03428793e+02, 
2.98095799e+03, 2.20264658e+04, 1.62754791e+05, 1.20260428e+06, 
8.88611052e+06, 6.56599691e+87]) 


图 2.17 


np. log(x+1) 


array([@e. , 1.09861229, 1.60943791, 1.94591015, 2.19722458, 
2.39789527, 2.56494936, 2.7080502 , 2.83321334, 2.94443898]) 


np.sart(x) 


array([@. , 1.41421356, 2. , 2.44948974, 2.82842712, 
3.16227766, 3.46410162, 3.74165739, 4. , 4.24264069]) 


2.2.4 数组 的 常见 操作 


KKA NumPy 数组 的 沼 见 操作 方式 ， 其 中 涉及 过 

1. 数组 的 索引 

索引 机 制 党 用 于 获取 、 人 设置 数组 元 系 值 。 如 由布 望 访 问 数 组 中 的 元 系 ， 则 可 像 Python 
列表 那样 对 其 进行 态 问 。 为 了 进一步 考 但 每 个 索 引 调用 的 执行 方式 , 下 面 育 先 通过 np.linspace 
生成 一 个 一 维 数组 ， 如 图 2.19 所 示 。 当 访问 数组 的 第 一 个 元 系 时 ， 对 应 的 索引 为 0。 


、 切 片 〈slice) 和 重 构 。 


In [59]: one_dim = np.linspace(-8.5, @.6, 12) 
one_dim 


Out[59]: array([-@.5, -@.4, -@.3, -@.2, -@.1, 
0.6]) 


In [60]: one dim|e 


Out[60]: -6.5 


图 2.19 
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对 于 基于 0 值 的 索引 ， 可 通过 one dim[0] 运 行 代 码 单元 ， 这 将 生成 对 应 于 索引 0 的 
元 素 。 因 此 ， 在 当前 数组 中 ， 第 一 个 元 素 为 -0.5。 当 然 ， 也 可 采用 其 他 索引 获取 对 应 的 元 
率 值 。 另 外 ， 如 果 打 算 修 改元 素 值 ， 则 可 通过 索引 获取 对 应 元 素 ， 并 于 随后 执行 赋值 操 
E. 例如， 假设 希望 将 索引 为 0 的 同 量 元 素 修 改 为 1， 则 可 利用 该 索引 获得 元 素 并 赋 子 新 
值 。 在 图 2.20 中 ， 第 一 个 元 系 -0.5 被 修改 为 1。 


In [32]: one dim[e] = 1 
one_dim 


Out[32]: array([ 1. , - 
@.6]) 


图 2.20 


相应 地 ， 当 与 二 维 数 组 协同 工作 时 ， 需 要 通过 两 个 索引 执行 索引 操作 。 下 面 衣 移 创 
建 一 个 二 维 数组 。 接 下来， 如果 希望 获取 0 行 (索引 为 0) 的 第 4 个 元 素 值 ， 即 3 列 〈 索 
引 为 3) 中 的 第 1 个 元 素 ， 则 可 使 用 two_dim[0,3]， 如 图 2.21 所 示 。 其 中 ， 第 1 个 维度 0 
表示 为 行 索引 ， 第 二 个 维度 3 则 表示 为 列 索引 。 
two_dim = np.array([[3, 5, 2, 4], [7, 6, 5, 5], [1, 6, -1, -1]]) 
two_dim 
: array([[ 3, 
[ 7, 
[ 1, 
In [34]: two_dim[@,3] 
Out[34]: 4 
In [35]: | two_dim[@,@] = 
two_dim 


F] 


Out[35]: array([ 


[-1 
[ 7 
[ 1 


J 


图 2.21 
与 一 维 数组 操作 类 型 , RATE ay WS ee Ee Ec AI oO, 可 将 位 置 (0,0) 
中 的 元 素 值 ( 即 0 行 、0 列 中 的 元 率 值 ) 修改 为 -1， 如 下 上 所 示 。 


two dim(0,0) = —1 


two dim 


这 将 把 对 应 的 元 系 值 从 3 修改 为 -1。 
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2. 数组 切片 


这 里 , 切片 (slice) 是 指 在 一 个 较 大 的 数组 中 获取 或 设置 一 个 较 小 的 子 数组 ， 其 操作 
方式 与 Python 列表 基本 相同 。 为 了 更 好 地 理解 这 一 问题 ， 此 处 再 次 考查 运行 one_dim ft 
AGI APE BZA. Hlk, WR ARMAS] O~S 不 包 插 索引 5)〉 的 有 所 有 元 系 ， 则 可 
运行 print(one dim[2,5D) 代 码 单 元 。 类 似 地 ， 奢 打算 获得 前 5 hock, WAKA 
print(one dim[:$])〈 不 包括 索引 5 对 应 的 元 系 )〉。 与 Python 列表 类 似 ， 这 里 也 可 使 用 负 索 
引 。 因 此 ， 如 果 升 望 获得 最 后 $ 个 元 系 ， 则 可 使 用 print(one_dim[-5:])， 如 图 2.22 Arma. 


In [36]: one dim 


Out[36]: array([ 1. , -@.4, - 
8.6]) 


In [37]: | print(one_dim[2:5]) 


print(one_dim[:5]) 
print(one_dim[-5:]) 


图 2.22 
在 二 维 数组 示例 中 ， 实 际 规则 并 无 变化 ， 但 需要 指定 每 个 维度 上 的 切片 。 在 当前 示 
例 中 ， 如 果 希 望 得 到 数组 中 的 前 4 个 元 素 ， 则 可 使 用 two dim[:2,:2]。 关 似 地 ， 契 打算 获 
得 全 部 行 中 起 始 的 两 个 元 素 ， 可 使 用 two_dim[:,1:3]|， 如 图 2.23 所 示 。 


In [38]: two_dim 


Out[38]: array([[- 
[ 7 
[ 


In [39]: | two_dim[:2,: 


Out[39]: array([[- 


In [40]: two_dim[: 


Out [40]: array([[ : 
[ : 
[ 
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此 处 得 到 起 始 行 和 索引 为 2 的 行 ， 对 于 列 来 说 ， 情 况 也 基本 一 致 。 类 似 地 ， 图 2.23 
中 还 显示 了 数组 所 有 行 中 的 前 两 个 元 系 。 

3. 重 构 数组 

数组 的 重 构 是 指 将 数组 从 一 个 维度 调整 至 万 一 个 维度 ， 如 一 维 数组 至 二 维 数 组 、 一 
维 数 组 至 三 维 数组 、 三 维 数组 至 二 维 数组 等 。 下 面 讨论 如 何 对 数组 进行 重 构 ， 此 处 将 绸 
次 使 用 到 前 述 一 维 数 组 。 如 时 希望 将 数组 香 构 或 转换 为 一 个 4x3 二 维 数组 ， 则 可 使 用 
reshape() 777A, SNA 2.24 所 示 。 


In [61]: one_dim 


Out[61]: array([-@0.5, -@.4, -@.3, -@.2, - 


@.6]) 


In [62]: one_dim.reshape(4,3 


Out[62]: array([[ 


-0.4, -0.3], 
-@.1, ©. ], 
.2, 0.3], 
.5, 0.6]]) 


图 2.24 
HEIT ERREN, BE 12 个 元 系 的 一 维 数组 被 调整 为 4 行 3 列 的 二 维 数组 。 除 此 
之 外 ， 还 可 指定 其 他 维度 ， 如 2x6， 甚 至 还 可 指定 三 维 数组 ， 如 2x2x3。 
O 注意， 


本 书 仅 涉及 一 维和 二 维 数组 ， 因 此 读者 不 必 担 心 更 高 的 维度 。 
在 二 维 数组 示例 中 ， 右 打算 将 其 转换 为 一 维 数组 ， 则 可 采用 flatten0) 方 法 ， 如 图 2.25 


In [43]: two dim 


Out[43]: array([[ 


-1 
[7 
[ 1 


a 


J 6, -1, SL 


: two_dim.flatten() 


: array([-1, 5, 
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当 运 行 flatten() 方 法 时 ， 二 维 数组 将 被 转换 为 一 维 数组 。 
2.3 ”使 用 NumPy 进行 模拟 
本 节 讨 论 如 何 运 用 NumPy 解决 些 实际 问题 ,主要 涉及 两 个 模拟 示例 。 其 间 我 们 还 将 
学 习 与 数组 处 理 相关 的 其 他 操作 。 
2.3.1 IBAE TH 


这 里 我 们 将 使 用 NumPy 模拟 投掷 硬币 。 为 此 , 可 使 用 NumPy 随机 子 模块 中 的 randint 
图 数 。 访 图 数 接收 low. high 和 size 参数 ， 这 也 是 硕 望 输出 的 随机 整数 的 范围 。 在 当前 示 
例 中 ， 输 出 结果 为 0 或 1。 相 应 地 ，low 人 为 0，high (HN 2 (ERA 2) . AX, size 
参数 定义 了 和 斋 望 输出 的 随机 整数 的 数量 ， 即 投 扼 便 币 的 次 数 ， 对 应 代码 如 图 2.26 所 示 。 


图 2.26 


此 处 , 0 表示 便 币 的 正面 ，1 表示 人 硬币 的 育 面 ; sob, HE CHET, [Ali size 
值 为 1。 每 次 运行 该 模拟 程序 时 ， 将 会 看 到 不 同 的 输出 结果 。 

下 面 考 查 另 一 种 模拟 情形 ， 即 一 次 投掷 10 枚 硬币 。 相 应 地 ， 需 要 将 最 后 一 个 参数 值 
调整 为 size=10。 为 了 得 到 便 币 正面 的 总 计 结果 ， 需 要 对 experiment 4h BZA A ATA IA 
求 和 ， 对 应 代码 如 图 2.27 所 示 。 


In [45]:  np.random.randint(low=8, high=2, size=1) 


Out[45]: array([e]) 


In [46]: experiment = np.random.randint(@,2, size=10) 
print(experiment ) 
print(experiment.sum() 


[00101009011] 
A 


图 2.27 


每 次 运行 该 模拟 程序 时 ， 可 以 看 到 随机 输出 结果 。 假 设 布 望 执 行 该 试验 10000 XK, 
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这 可 通过 NumPy 方便 地 了 予以 实现 。 下 面 创 建 一 个 coin matrix 模拟 程序 ， 并 查看 一 次 投 
AS 10 枚 人 硬币 时 正面 数量 的 分 布 状态 。 对 此 ， 我 们 将 使 用 相同 的 函数 randint， 以 及 相同 
的 参数 0 和 2; 但 size 将 被 赋 子 一 个 二 维 数 组 ， 因 而 有 size=(10000,10)。 考 虑 到 无 法 在 
FEAA A| 10000 行 的 矩阵 , 因而 这 里 设置 一 个 较 小 的 窍 阵 显 示 coin matrix[:5,:] 输 出 

当 运 行 该 代码 单元 时 ， 将 会 看 到 和 盾 阵 的 前 5 行 数据 ， 且 每 次 运行 该 模拟 程序 时 ， 结 
打 也 将 有 所 不 同 。 


O 注意 : 
这 里 ， 前 5 行 数据 表示 10 枚 硬币 投手 10000 次 后 (实际 和 矩阵 包含 了 10000 47 ) 的 前 
人 


当 计 算 每 次 试验 中 人 硬币 正面 的 识 数 时 ， 可 使 用 sum 属性 。 但 在 当前 示例 中 ， 我 们 项 
望 对 所 有 行 求 和 。 当 在 NumPy 中 对 全 部 行 执行 求 和 计算 时 ， 可 使 用 附加 参数 axis， 并 设 
A axis=1。 这 将 生成 一 个 数组 ， 其 中 包 侣 了 每 次 试验 中 得 到 多 少 次 正面 的 计数 结 末 ， 如 
图 2.28 所 示 。 


counts = coin matrix.sum(axis=1) 
print(counts[:25]) 
print(counts.mean()) 
print(np.median(counts) ) 
print(counts.min(), counts.max()) 
print(counts.std()) 


[54786275686466256563346/7 6] 


1.5791724130062557 


图 2.28 


在 图 2.28 F, 我 们 获取 了 数组 中 的 前 25 个 元 素 ， 其 中 包含 了 每 次 试验 中 硬币 正面 的 
数量 。 此 外 ，NumPy 还 定义 了 一 些 数 组 ， 并 涵盖 了 一 些 有 用 的 方法 执行 统计 计算 ， 如 均 
E FHE. RME RAEM Em. EH mean0 方 法 时 ， 将 得 到 全 部 试验 结果 的 
均值 或 硬币 正面 的 平均 值 。median0) 方 法 将 生成 试验 中 硬币 全 部 正面 计数 的 中 值 。 除 此 之 
外 ， 还 可 使 用 min0 和 max(0) 方 法 获得 正面 的 最 小 和 最 大 数量 。std0 方 法 将 计算 数组 计数 
HS] an HEE ig ZE o 
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Os. 
该 试验 每 次 的 输出 结果 均 有 所 不 同 ， 因 此 ， 读 者 不 必 为 显示 结果 的 差异 而 感到 纠结 。 


如 果 希 望 了 解 硬币 正面 数量 的 分 布 状 态 ， 则 可 使 用 bincount 函数 。 当 运行 代码 单元 
时 ， 将 得 到 一 个 数值 数组 ， 表 示 试 验 中 硬币 的 正面 数量 ， 且 位 于 0 一 10， 如 图 2.29 所 示 。 


In [49]: np.bincount(counts) 


Out[49]: array([ 10, 109, 428, 1194, 2051, 2427, 2097, 1157, 431, 82, 14], 
dtype=int6é4) 


图 2.29 


此 外 ， 代 但 还 包含 了 人 硬币 正面 数量 分 布 的 数值 细节 信息 。 可 以 看 到 ， 其 中 包含 0 次 
正面 10 次 ，1 REH 109 次 《以 及 对 应 的 白 分 比 〉》， 等 等 ， 如 图 2.30 所 示 。 


unique_numbers = np.arange(@,11) 
observed_times = np.bincount(counts) 
print(" 
for n, count in zip(unique_numbers, observed_times): 
print("{} heads observed {} times ({:0.1}%)".format(n, count, 106*count/2eee 


F 


observed 10 times (0.5%) 
observed 109 times (5.5%) 
observed 428 times (21.4%) 
observed 1194 times (59.7%) 
observed 2051 times (102.5%) 
observed 2427 times (121.3%) 
observed 2097 times (104.8%) 
observed 1157 times (57.9%) 
observed 431 times (21.6%) 
observed 82 times (4.1%) 

© heads observed 14 times (6.7%) 


图 2.30 


ASTI DT VE K A ERE ~— 个 示例 ， 并 使 用 matplotlib NumPy 库 。 假 设 我 们 想 利 用 

态 分 布 对 股票 的 收益 进行 建 模 。 这 里 , 可 使 用 normal 函数 生成 具有 正 态 分 布 的 随机 数 。 
normal pKa Pi J loc ay scale 参数 〈 也 称 作 标准 俩 震 ) ， 以 及 加 载 随机 值 的 参数 。 
AM, random 参数 表示 营业 年 度 的 天 数 。 
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当 运 行 代码 单元 时 ， 将 得 到 一 个 数值 数组 ， 表 示 前 20 天 的 收益 。 除 此 之 外 ， 也 会 得 
到 一 些 负 收益 和 一 些 正 收 荔 ， 束 像 在 正常 的 股票 市 场 中 一 样 。 假 设 initial price 为 100， 当 
计算 接 下 来 几 天 中 的 全 部 价格 时 ， 可 以 使 initial price 乘 以 收益 累积 和 的 指数 函数 。 图 2.31 
显示 了 基于 NumPy 的 计算 过 程 ， 以 及 相应 的 绘制 结果 。 


In [56]: plt.plot(price) 
plt.grid(); 


In [57]: returns = np.random.normal(@.001, 0.02, 250) 
initial price = 100 
price = initial price*np.exp(returns.cumsum( ) ) 
plt.plot(price) 
plt.grid(); 


O 注意 : 
为 了 更 好 地 理解 上 述 程序 ， 建 议 读者 学 习 一 点 金融 知识 。 当 前 目标 并 不 是 在 金融 领 
域 中 执行 模拟 过 程 ， 而 是 读者 展示 NumPy 的 简单 性 及 其 相关 示例 。 
在 当前 示例 中 ， 股 票 价格 始 于 100， 图 2.31 中 模拟 了 其 演变 过 程 。 对 于 相同 的 代码 ， 
每 次 运行 代码 单元 时 均 会 得 到 不 同 的 模拟 结果 。 
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本 草 讨论 了 NumPy JÆ, SEATER. Ish, RAENT T NumPy 数组 ， 
这 也 是 NumPy 中 的 主要 对 象 ， 其 中 涉及 数组 的 构建 、 各 种 属性 、 基 本 的 数学 运算 ， 以 及 
对 数组 的 操作 方式 。 随 后 ， 本 章 还 讲述 了 如 何 利 用 NumPy 执行 何 单 的 模拟 操作 。 

第 3 章 将 讨论 pandas， 这 也 是 Python 中 较为 常用 的 数据 分 析 库 之 一 。 


S35 数据 分 析 库 pandas 


本 章 将 讨论 pandas 库 ， 涉 及 该 库 的 一 些 功能 ， 及 其 在 Python 数据 科学 中 的 重要 性 。 
此 外 ， 本 章 还 将 介绍 pandas 库 中 的 主要 对 象 ， 即 Series 和 DataFrame， 包 括 其 数据 分 析 
时 的 省 项 属性 和 操作 。 同 时 ， 我 们 还 将 考 合 相关 示例 ， 进 而 角 过 丰 实 的 数据 集 了 解 如 何 
使 用 该 库 中 的 对 象 ， 并 回 容 与 数据 集 相 关 的 一 些 重音 问题。 本 章 主要 涉及 以 下 主题 。 

L) pandas JẸ. 

L) pandas 的 操作 。 

O ”通过 示例 回答 一 些 与 数据 集 相 天 的 简单 问题 。 


3.1 pandas 库 


作为 Python JÆ, pandas 提供 了 快速 、 灵 活 的 数据 结构 ， 并 可 与 关系 型 或 表格 数据 协 
同 工 作 ， 如 SQL 或 电子 表格 ; 对 于 真实 的 数据 分 析 操 作 来 说 ，pandas 也 是 一 类 较为 基础 
的 高 层 构建 块 。 我 们 可 通过 下 列 语 句 导 入 pandas 库 。 

Wes De ee 

import pandas as pd 

pandas 适用 于 以 下 场景 。 

O ”表格 数据 中 包含 了 不 同类 型 的 列 ， 如 SQL 数据 库 或 Excel 电子 表格 中 的 数据 。 

UO AFRE Fe aa 

OQ ”数据 位 于 行 和 列 中 ， 其 组 织 方 式 拓 似 于 十 阵 。 

Do ”使 用 观测 数据 或 其 他 类 型 的 统计 数据 。 

pandas 中 包含 了 以 下 两 种 主要 的 数据 结构 。 

L) Series: 一 维 数据 结构 。 

Q DataFrame: 二 维 数 据 结构 。 

它们 可 以 处 理 不 同 领 域 中 的 大 多 数 场 景 ， 如 金融 、 统 计 学 、 社 区 科学 ， 以 及 大 多 数 
工程 和 商业 领域 。pandas 构建 于 NumPy 之 上 ， 并 通过 其 他 第 三 方 库 实现 了 与 科学 计算 环 
境 的 良好 集成 。 除 此 之 外 ， 我 们 还 可 将 pandas 库 与 其 他 库 结 合 使 用 ， 如 本 章 所 讨论 的 可 
ANY. pandas 主要 包含 以 下 特征 。 
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对 于 浮 点 和 非 浮 点 型 数据 ， 可 以 方便 地 处 理 超 撩 数据 。 

可 方便 地 插入 、 删 除 DataFrame 和 更 高 维度 对 象 中 的 数据 。 

数据 目 动 对 齐 。 

通过 功能 分 组 ， 实 现 功能 强大 、 灵 活 的 数据 聚合 和 转换 。 

轻松 地 将 不 同 索 引 的 Python 和 NumPy 数据 结构 转换 为 DataFrame 对 象 。 

基于 标签 的 镶 能 切片 机 制 、 民 好 的 索引 机 制 ， 以 及 大 型 数据 集 的 子 集 划分 。 
较为 耳 观 的 数据 集 的 合并 和 连接 机 制 |。 

轴 的 层次 标记 。 

健壮 的 IO 工具 ， 用 于 从 平面 文件 、Excel 文件 、 数 据 库 和 超 高 速 HDFS 格式 保 
存 /加 载 数据 。 

事件 序列 特定 功能 ， 包 括 日 期 范围 生成 和 频 座 转换、 移动 窗口 统计 、 移 动 窗 口 
线性 回归 、 日 期 变化 、 浪 后 等 。 


3.1.1 FA pandas 中 的 对 象 


coLLL DO CI 


L 


pandas 中 包含 了 以 下 两 种 较为 午 要 的 对 象 。 

LJ Series. 

_J DataFrame. 

当 利 用 Python 并 在 数据 科学 计算 中 使 用 pandas 时 , 育 移 需要 寻 入 NumPy 和 数学 库 ， 
对 应 代码 如 下 。 

import numpy as np 

import matplotlib.pyplot as plt 

smaplotlib inline 


fe PRK, 45 pandas 协同 工作 时 ， 可 利用 标准 的 语句 导入 pandas 库 ， 如 下 所 示 。 


import pandas as pd 


3.1.2 Series 


pandas 中 的 Series 数据 结构 定义 为 一 维 标记 数组 ， 该 数据 结构 主要 包含 以 下 特征 。 
D Series 中 的 数据 可 以 是 任意 类 型 ， 如 整 型 、 字 符 串 、 浮 点 数 、Python HRE. 
O ”数据 本 质 上 是 同 质 的 ， 或 者 所 有 数据 必须 是 同一 类 型 的 。 

D ”数据 一 般 包含 一 个 索引 ,进而 生成 如 图 3.1 所 示 的 数据 结构 字典 和 Python 列表 ， 
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或 者 NumPy 数组 类 型 属性 。 


图 3.1 
3.1 展示 了 pandas Series 的 可 视 化 示例 , 可 以 看 到 , 每 个 数据 点 均 与 一 个 索引 关联 。 


3.1.3 ”创建 pandas 中 的 Series 


对 此 , 存在 多 种 方式 可 创建 pandas Series 对 象 。 以 下 内 容 列 举 了 较为 常见 的 集中 方法 。 

”从 列表 中 进行 创建 。 

”从 字典 中 进行 创建 。 

Oh ”从 NumpPy 数组 中 进行 创建 。 

D ”从 外 部 数据 源 中 进行 创建 ， 如 一 个 文件 。 

下 面 考 个 如 何 从 列表 、 字 和 典 和 NumpPy 字典 中 创建 Series。 对 此 ， 自 先 需 要 定义 数据 ， 
并 作为 列表 对 其 进行 驼 引 。 此 处 生成 了 一 个 数值 列表 ， 并 将 其 命名 为 temperature; 为 一 
个 数值 列表 则 命名 为 days。 当 从 数据 中 创建 一 个 Series 时 ， 可 使 用 pd.Series(temperature, 
index=days) 构 造 方 法 ， 如 图 3.2 所 示 。 
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In [3]: |# define the data and index as Lists 
temperature = [33, 19, 15, 89, 11, -5, 9] 
days = [‘'Mon','Tue'’,'Wed','Thu','Fri’, ‘Sat’, ‘Sun’ ] 


# create series 
series from_list = pd.Series(temperature, index=days) 
series from _list 


Out|3]: Mon 33 
Tue 19 
Wed 15 
Thu 89 
Fri 11 
Sat -5 
Sun 9 
dtype: int64 


图 3.2 


当 运 行 上 述 代码 时 , 可 以 看 到 , 每 个 数值 均 与 各 目的 索引 进行 天 联 , 随 后 ,将 从 Python 
字典 中 创建 一 个 Series。 在 Python 字典 中 ， 一 般 包 含 了 与 对 应 数值 相关 联 的 键 。 因 此 ， 
当 从 字典 中 生成 一 个 pandas Series 时 ， 全 部 键 将 用 作 过 引 ， 而 对 应 值 则 表示 为 与 该 索引 
所 关联 的 Series 中 的 数值 。 根 据 图 3.2 中 所 示 数 据 ， 可 定义 一 个 my_dict Fgh, HH, A 
期 (以 星期 几 表 示 ) 将 与 温度 关联 。 随 后 ， 将 该 字典 传递 至 pd.Series(my_dict) 构 造 方法 
中 ， 如 图 3.3 所 示 。 

In [4|: # from a dictionary 
my dict = { Mon : 33, Tue : 19, Wed: 15, Thu : 89, Fri: 11, Sat : 
series from dict = pd.Series(my dict) 
series from dict 


* Mon 


Tue 
Wed 
Thu 
Fri 
Sat 
Sun 
dtype: i 


图 3.3 


虽然 日 期 〈 以 星期 几 表示 ) EFIS Pyhton 字典 中 不 包含 隐 仿 的 顺序 关系 ， 
但 每 一 天 均 与 上 日 映 的 温度 值 相关 联 。 例 如 ，Fri 与 11 关联 、Mon 与 33 关联 等 。 
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接 下 来 讨论 如 何 从 NumPy 数组 中 创建 pandas Series。 对 此 ， 首 先 利 用 np.linspace ek 
数 定 义 my array WR; 随后 ， 将 该 对 象 传递 至 pd.Series 构造 方法 中 ， 该 方法 根据 所 定义 
的 NumPy 数组 创建 一 个 Series， 如 图 3.4 Pra. 


In [5]: | # From a numpy array 
my_array = np.linspace(@,10,15) 
series from_ndarray = pd.Series(my_array) 
series from_ndarray 


. 000000 
. 714286 
.428571 
. 142857 
-857143 
-5/1429 
.285714 
. 000000 
. 714286 
.428571 
. 142857 
-857143 
-571429 
. 2857/14 
14 19. 000909090 
dtype: float64 


e OO 


ð 
1 
2 
3 
4 
5 
6 
- 
8 
9 


ony nauupWhP hb 


te) 


几 3.4 


鉴于 尚未 指定 任何 索引 ，pandas 将 自动 生成 整数 索引 ， 该 索 位 于 0 一 元 素数 量 减 1。 
当中 他 了 15 个 元 素 ， 因 而 索引 最 大 值 为 14。 


Fy 通过 pandas Series 执行 向 量化 操作 ， 这 与 NumPy 数组 类 似 。 有 具体 来 说 ， 如 
果 在 Series Fe 本 某 项 操作 ， 那 么 ， 相 同 操作 将 应 用 于 该 Series PARED oc, wK 3.5 
HIZR o 


在 图 3.5 F, Series FEU 2, Bmw., 其 中 的 每 个 元 系 均 乘 以 2。 AR, WK Series 
加 2， 那 么 ， 其 中 的 每 个 元 系 均 会 加 2。 美 似 地 ， 还 可 执行 其 他 类 型 的 数学 运算 ， 其 至 可 
使 用 NumPy ae eka. Ith, FRISCH NumPy 中 的 数学 函数 np.exp 计算 Series 的 
指数 。 当 运行 代码 时 ， 将 会 看 到 包含 相同 索引 以 及 最 新 指数 值 的 pandas Series. 
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In [59]: #Vectorized operations also work in pandas Series 
2*series from list 


Out[59]: Mon 66 
Tue 38 
Wed 30 
Thu 178 
Fri 22 
Sat -10 
sun 18 


dtype: int64 


In [60]: #Vectorized operations also work in pandas Series 
series from list + 2 


out[60]: Mon 35 


Tue 21 
Wed 1/ 
Thu 91 
Fri 13 
Sat -3 
Sun 11 


dtype: int64 


In [61]: #Vectorized operations also work in pandas Series 
np.exp(series from list 


Out| 61]: Mon 2.146436e+14 
Tue 1. /84823eC108 
Wed 3.26901 /e+06 
Thu 4.489613€+38 
Fri ».98/414e+04 
Sat 6./3/94/e-03 
Sun 8. 1630846463 


dtype: float64 


3.1.4 DataFrame 


DataFrame 定义 为 一 种 二 维 标 记 数 据 结构 ， 且 对 应 列 可 包含 不 同 的 数据 类 型 。pandas 
DataFrame 关 似 于 微软 的 Excel 电子 表格 或 SQL 表 。 其 中 包含 了 两 个 索引 ， 分 别 对 应 于 
行 索引 和 列 索引 ， 如 图 3.6 Ara. 

图 3.6 中 包含 了 两 个 索引 ， 这 里 ， 列 与 Dates、Tokyo $R; 而 行 则 与 INDEX 进行 
Fo 
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INDEX Dates Tokyo Paris Mumbai 


avwa 


AR 


WAY 


NSS 


WW 


vinni- | 


3.1.5 创建 pandas DataFrame 


DataFrame BA ZIETAN. FL BOA Ts I HERI A EAE OE e E 
DataFrame. HKR., PNET FIRER DataFrame. 

D è 一 维 ndarrays 字典、 列表、 字典 或 Series。 

Q 二 维 numpy.ndarray 。 

Oh TEXT. CSV. Excel 文件 或 数据 库 。 

下 面 从 真实 的 数据 集中 创建 DataFrame， 对 应 的 数据 集 涉 及 人 力 资 源 、 人 员 沉 失 、 性 
能 等 方面 的 数据 。 读 者 可 访问 https://www.ibm.com/communities/analytics/watsonanalytics- 
blog/hr-employee-attrition/ 以 获取 此 类 数据 。 


Q x. 
KF pandas， 读 者 可 直接 从 互联 网 上 下 载 相关 数 据 。 如 果 对 应 文件 位 于 URL F, 1 
可 将 该 URL 保存 至 Python 字符 串 中 ,并 利用 pandas 的 Tead excel 函数 直接 创建 DataFrame。 


考虑 到 将 从 Excel 文件 中 生成 DataFrame, 因而 该 过 程 会 涉及 一 些 具体 的 参数 。 其 中 ， 
第 一 个 参数 是 io， 并 指定 了 文件 的 位 置 ; 第 二 个 参数 sheetname 定义 了 要 从 Excel 文件 中 
读 取 的 表 ; 最 后 一 个 参数 index_col 则 表示 所 使 用 的 索引 ， 如 图 3.7 Ata. 

其 中 ， 定 义 了 file url 变量 表示 文件 的 位 置 。 随 后 ， 即 可 创建 DataFrame 并 将 其 命名 
为 data。 
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In [7]: file_url = "https://community.watsonanalytics.com/wp-content/uploads/2815/83/WA_F 


H 


In [8]: data = pd.read_excel(io=file_url, sheetname=0, index_col='EmployeeNumber') 


图 3.7 


3.1.6 #47 DataFrame 


DataFrame 由 以 下 3 部 分 内 容 构成 。 

OG Ras 

A. 

D ”数据 。 

通过 访问 index 和 columns 属性 ， 可 分 别 访 问 行 和 列 标记 ， 如 图 3.8 Ara. 


In [9]: data.columns 


Out[9]: Index(['Age', ‘Attrition’, 'BusinessTravel', "DailyRate', ‘Department’, 
‘DistanceFromHome’, ‘Education’, ‘EducationField', ‘EmployeeCount’, 
'EnvironmentSatisfaction', 'Gender', 'HourlyRate', 'JobInvolvement', 
‘JobLevel', ‘JobRole', ‘JobSatisfaction', 'MaritalStatus', 
'MonthlyIncome', 'MonthlyRate', 'NumCompaniesWorked', 'Over18', 
‘'OverTime', ‘'PercentSalaryHike', 'PerformanceRating', 
‘RelationshipSatisfaction', ‘StandardHours', ‘StockOptionLevel’, 
'TotalWorkingYears', 'TrainingTimesLastYear', 'WorkLifeBalance', 
‘YearsAtCompany', ‘YearsInCurrentRole', ‘YearsSinceLastPromotion', 
'YearsWithCurrManager' |, 

dtype='object') 


In [10]: data.index 


Out[1@]: Int64Index([ 1, 2 4, 5, $; 8, 10, 11, 12, 13; 


2854, 2055, 2056, 2857, 2060, 2061, 2862, 2064, 2065, 2868], 
dtype="int64', name="EmployeeNumber', length=1478) 


In [11]: data.values 


Out[11]: array([[41, 'Yes', 'Travel_Rarely', ..., 4, ð, 5], 
[49, “No",;. “Travel. Frequently"; ..., 7; 1, 7], 
[37, "Yes', ‘Travel_Rarely', ..., ©, 9, @], 
Atte 
[27, 'No', “Travel Rarely’: ..., 2, @ 3], 
[49, "No', 'Travel_Frequently'", ..., 6, ©, 8], 
[34, "No', ‘Travel Rarely', ..., 3, 1, 2]], dtype=object) 


图 3.8 


使 用 columns 属性 将 生成 全 部 列 名 ; 类 似 地 ， 使 用 index Ja MERE MAS 
用 value 属性 将 生成 DataFrame 中 的 数值 ， 并 以 NumPy 数组 形式 予以 呈现 。 


>o Kia, Fl 
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3.2 pandas 操作 


pandas "14415 & PERRYE 7K, AN ERA BEBO E LIBRE - 
3.2.1 检查 数据 
当 从 文件 中 加 载 或 创建 DataFrame 时 ， 肯 先 需 要 检 合 加 载 后 的 数据 。 对 此 ， 存 在册 


种 相关 方法 ， 即 head 和 tail. 
其 中 ，head 方法 将 显示 前 5 行 数据 ， 如 图 3.9 所 示 。 


In [12]: data.head() 


Out[12]: 


Age Attrition BusinessTravel DailyRate Department DistanceFromHome Edi 


EmployeeNumber 
1 Travel_Rarely Sales 


9 | Travel_Frequently eh 
4 Travel_Rarely | 
5 | Travel_Frequently Pirie 

Research & 


7 Travel_Rarely Development 


5 rows x 34 columns 


图 3.9 
可 以 看 到 ， 当 运行 data.head0) 方 法 时 ， 图 3.9 中 显示 了 前 5 行 、34 列 数据 。 
当 考 得 最 后 5 行 数据 时 ， 可 采用 tail 方法 。 当 运行 data.tail0 方 法 时 ， 图 3.10 显示 了 
最 后 5 行 数据 。 通 过 上 述 两 种 方法 ， 可 确保 数据 已 被 正确 地 加 载 。 


3.2.2 ”数据 的 选取 、 添 加 和 删除 


我 们 可 将 DataFrame 视 为 一 个 Series 字典 ， 其 中 ， 每 列 类 似 于 一 个 pandas Series, + 
采用 与 字典 对 和 象 相 同 的 访问 方式 访问 该 Series。 相 应 地 ， 可 将 DataFrame 看 作 是 一 个 索引 
Series 对 象 字典 ， 列 的 获取 、 设 置 和 删除 操作 与 字典 保持 一 致 。 下 面 和 考 盘 儿 个 相关 示例 。 
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假设 需要 访问 DataFrame 中 的 Age 列 ， 对 此 ， 需 要 编写 相应 的 方法 并 指明 所 需 访问 的 列 
名 称 ， 如 图 3.11 Ata. 


In [13]: | data.tail{) 


Out[13]: 
Age Attrition BusinessTravel DailyRate Department DistanceFromHome Edi 


EmployeeNumber 


Research & 


2061 Travel_Frequently Development 


Research & 


2062 | Travel_Rarely Development 


2064 Travel_Rarely ee 
Development 
2065 | Travel_ Frequently sales 


Research & 


2068 Travel_ Rarely Development 


5 rows * 34 columns 


Tn [14]: # Getting one column: .head() is just to print the first 5 values 
data[ 'Age']-.head() 


Out[14]: EmployeeNumber 


1 
2 
4 
5 
7 
N 


ame: Age, dtype: int64 


# Getting more than one column 
data[["Age’', ‘Gender’, 'YearsAtCompany']].head() 


Age Gender YearsAtCompany 
EmployeeNumber 
1 41 Female 
Male 
Male 
Female 


Male 


其 中 ， 当 执行 data['Asge'].head0 和 data[['Age', 'Gender', 'YearsAtCompany']].headQ I E 
时 ， 将 从 DataFrame 中 所 指定 的 列 中 获取 前 $ 行 。 
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headQ Fuk F 于 避免 显示 DataFrame 中 的 所 有 行 ， 因 为 这 是 一 个 太 长 的 列表 。 


=A] DataFrame 中 洪 加 一 列 时 ， 可 退 过 data['AgeInMonths'] = 12*data['Age'] 方 法 生成 
一 列 ， 如 图 3.12 所 示 。 
In [16]: | # Adding a column 


data['AgeInMonths'] = 12*data['Age'] 
data[ 'AgeInMonths'‘ ] .head ( ) 


Out[16]: EmployeeNumber 


1 492 
2 588 
4 444 
5 396 
7 324 
Name: AgeInMonths, dtype: int64 


图 3.12 


当前 ， 该 列 并 不 存在 于 DataFrame 中 ， 但 通过 执行 上 述 方法 ， 新 列 AgeInMonths 将 
Axis DataFrame 中 。 

相应 地 ， 一 种 方式 是 可 采用 del 语句 删除 DataFrame 中 刚刚 创建 的 列 ; 另 一 种 方式 是 
使 用 drop0) 方 法 从 DataFrame 中 删除 列 。 当 采用 drop0 方 法 时 ， 可 传递 希望 删除 的 列 。 如 
果 打 算 删 除 列 ， 则 可 指定 axis=1。 参 数 inplace 则 表示 就 地 调整 数据 对 象 ， 同 时 希望 这 一 
修改 行为 持久 化 于 当前 数据 结构 中 。 图 3.13 显示 了 上 述 各 项 操作 。 


In [17]: | # Deleting a column 
del data['AgeInMonths' ] 
# the drop method can also be used 
data.drop('EmployeeCount', axis=1, inplace=True) 


In [18]: data.columns 


Out[18]: Index(['Age', ‘Attrition’, 'BusinessTravel', 'DailyRate', 'Department', 
‘DistanceFromHome’, ‘Education', ‘EducationField’, 
"EnvironmentSatisfaction', 'Gender', ‘HourlyRate', ‘JobInvolvement', 
"JobLevel', ‘JobRole', ‘JobSatisfaction', 'MaritalStatus', 
"MonthlyIncome', "MonthlyRate’, ‘NumCompaniesWorked', ‘Over18', 
"OverTime', 'PercentSalaryHike', ‘PerformanceRating’, 
"RelationshipSatisfaction', 'StandardHours', 'StockOptionLevel', 
‘TotalWorkingYears', ‘TrainingTimesLastYear', ‘WorkLifeBalance’, 
"YearsAtCompany', ‘YearsInCurrentRole’, ‘YearsSinceLastPromotion'’ , 
‘YearsWithCurrManager' ], 

dtype='object' ) 


图 3.13 
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“HRS BAU, UES), EmployeeCount 已 被 删除 。 
3.2.3 DataFrame 切片 


与 NumPy 中 的 Series 类 似 ， 我 们 也 可 以 从 pandas Series 和 DataFrame 中 获取 切 厂 ， 
并 可 在 Series 和 DataFrame 中 使 用 相同 的 符号 ， 如 图 3.14 Pra. 


In [19]: | data[ 'BusinessTravel'][10:15] 


Out[19]: EmployeeNumber 
Travel Rarely 
Travel Rarely 
Travel Rarely 
Travel Rarely 
Travel Rarely 
Name: BusinessTravel, dtype: object 


In [260]:  data[10:15] 


Out[ 20]: 
Age Attrition BusinessTravel DailyRate Department DistanceFromHome Educ 


EmployeeNumber 


Travel_ Rarely Seas 
Travel_ Rarely Rarna 
Travel_Rarely i 
Travel_Rarely | 

Research & 


Travel_Rarely Development 


5 rows * 33 columns 


图 3.14 
Et, MAMA 10~15 APER 15) 的 对 应 数据 被 “切取 ”， 并 显示 于 输出 结果 中 。 
3.2.4 基于 标记 的 选择 操作 
此 外 ， 我 们 还 可 根据 标记 执行 选择 操作 ， 这 也 是 为 什么 索引 在 数据 结构 中 如 此 重要 


的 原因 。 如 果 和 希望 从 菜 些 特定 的 员工 中 获取 数据 ， 则 可 使 用 loc Fie. Ae, WEN 
selected EmployeeNumbers = [15, 94, 337, 1120] 指 定 需 要 获取 数据 的 员工 。 因 为 在 这 两 个 
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关联 ， 因 而 可 使 用 该 索引 访问 所 需 数 据 ， 


数据 结构 中 ， 每 个 值 都 与 EmployeeNumber 49 
如 图 3.15 所 示 。 


selected EmployeeNumbers = [15, 94, 337, 1120] 


data['YearsAtCompany'].loc[selected_EmployeeNumbers ] 


EmployeeNumber 

15 

94 

337 

1120 7 

Name: YearsAtCompany, dtype: int64 


图 3.15 


图 3.15 中 显示 了 源 日 pandas Series 中 的 数据 ， 其 中 包含 了 员工 在 公司 的 工作 年 数 。 
DataFrame 中 也 包含 了 1loc 方法 。 如 果 同 DataFrame 中 的 loc 方法 传递 同一 列表 ， 将 
得 到 与 当前 标记 相关 联 的 全 部 数据 ， 如 图 3.16 所 示 。 


In [23]: data.loc[selected_EmployeeNumbers | 


Out[ 23]: 
Age Attrition Businesstravel DailyRate Department DistanceFromHome Edi 


EmployeeNumber 


15 29 No Travel_ Rarely Shere Schl 
Research & 


94 29 No Travel_Rarely Development 


337 31 No Travel_Frequently | 
Research & 


1120 29 No Travel_Rarely Development 


4 rows x 33 columns 


In [24]: # Getting a single value 
data.loc[94,'YearsAtCompany'] 


Out[24]: 5 


图 3.16 


如 果 和 希望 得 到 DataFrame 中 的 特定 值 或 特定 日 元 ， 则 可 同 loc FE PFET PGI, 
即行 索引 和 列 索 引 。 除 此 之 外 ， 还 可 利用 iloc 方法 并 通过 位 置 访问 数据 。 
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33 数据 集 


假设 人 力 资源 总 监 要 求 你 回答 公司 员工 方面 的 一 些 问题 ， 具 体 如 下 。 
数据 集中 按 部 门 划分 有 多 少 名 员工 ? 

公司 员工 的 电 体 流失 率 是 多 少 ? 

公司 员工 的 平均 时 薪 是 多 少 ? 

公司 员工 的 平均 工作 年 限 是 多 少 ? 

在 公司 任职 时 间 最 长 的 5 名 员工 是 谁 ? 

员工 整体 满意 度 如 何 ? 


3.3.1 数据 集中 按 部 门 划分 的 员工 数量 


当 得 看 数据 集中 的 部 门 时 ， 可 使 用 data[Department] 语 句 。 随 后 将 得 到 名 为 
Department 的 列 ， 这 表示 为 bandas Series; 对 于 每 名 员工 ， 还 将 看 到 该 员工 所 属 的 部 门 。 
Att, 当 计 算 pandas Series 中 各 部 门 的 员工 数量 时 , 可 使 用 value_counts0 方 法 , 如 图 3.17 
HIZR o 


LDL L m 


In [25]: datal ‘Department’ ].value_counts() 


Out[25]: Research & Development 961 


Sales 446 
Human Resources 63 
Name: Department, dtype: int64 


图 3.17 


HH, pandas Series 中 Department PTX VA RUB OK ete INT UER. 
3.3.2 ”员工 的 流失 率 


自 先 ， 可 使 用 data['Attrition"] 语 句 合 看 数据 集中 的 Attrition 列 。 在 该 列 中 ， 对 应 数据 
表明 员工 是 否 仍然 在 职 。 对 于 在 职员 工 ，Attrition 等 于 No; 而 离职 员工 的 Attrition Wl 
ST Yes. Mja, PIRX Value_counts0 方 法 以 计算 每 种 结果 的 出 现 次 数 。 为 了 得 到 流失 
率 〈 离 职员 工 的 比率 ) ， 可 使 用 附加 参数 normalize=True。 图 3.18 显示 了 当前 操作 所 对 
应 的 代 体 。 
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: dataf['Attrition'].value_counts() 


: No 1233 
Yes 23/ 
Name: Attrition, dtype: int64 


: | data[ ‘'Attrition'].value_counts(normalize=True) 


: No 9.838776 
Yes 8.161224 
Name: Attrition, dtype: float64 


In [28]: attrition_rate = data[ ‘Attrition’ ].value_counts(normalize=True)['Yes' ] 
attrition_rate 


Out[28]: @.16122448979591836 


几 3.18 


当前 ， 为 了 获得 整体 流失 率 ， 可 使 用 Yes 索引 中 的 关联 标记 。 因 此 ， 在 图 3.18 P, 
我 们 计算 得 到 了 Yes 索引 的 数值 ， 即 流失 率 为 16.12%。 


3.3.3 ”平均 时 薪 


pandas Series 中 包含 了 多 种 统计 方法 ，mean0) 方 法 便 是 较为 常用 的 方法 之 一 ， 该 方法 
用 于 计算 pandas Series H FIJE, WR 3.19 Prax. 


In [29]: data['HourlyRate' ].mean() 


Out[29]: 65.891156462585e3 


图 3.19 


通过 mean0 方 法 ， 可 计算 得 到 变量 HourlyRate 的 平均 值 为 65.89. 
3.3.4 平均 工作 年 限 


为 了 计算 公司 内 员工 的 平均 工作 年 上限， 可 采用 mean0 方 法 。 除 此 之 外 ， 还 存在 另 一 
种 方法 不 仅 可 计算 平均 值 , 还 可 获得 Series 的 其 他 描述 性 统计 结果 。 有 具体 来 说 ，describe0) 
方法 可 计算 平均 值 、 标 准 偶 差 、 最 小 值 、 最 大 值 和 百分比 ， 如 图 3.20 Ara. 

从 图 3.20 中 可 以 看 到 ， 公 司 员工 的 平均 工作 年 限 为 7。 因此，describe0 方 法 也 是 一 
种 较为 常用 的 计算 方法 。 
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data[ 'YearsAtCompany' ].describe() 


count 1470.000000 
mean . 988163 
std . 120929 
min . 00900900 
25% . 000000 
50% . 0090000 
75% 9 . 000000 
max 490 . 090900090 
Name: YearsAtCompany, dtype: floaté4 


图 3.20 
3.3.5 ”任职 时 间 最 长 的 员工 


对 于 pandas Series 中 的 数值 排序 ， 可 使 用 sort values0) 方 法 。 默 认 状 态 下 ， 访 方法 以 
升序 进行 排序 。 如 果 不 希 望 采 用 升序 ， 则 可 将 参数 ascending 设置 为 False。 和 鉴于 显示 结 
末 包 含 了 全 部 数据 列表 , 因而 , 可 通过 slice PRIREZ Series 中 的 前 5 个 元 系 , 如 图 3.21 
AAR o 


In [31]: data['YearsAtCompany'].sort_values(ascending=False)[:5] 


Out[31]: EmployeeNumber 
165 48 
131 37 
374 36 
1578 36 
776 34 
Name: YearsAtCompany, dtype: int64 


In [32]: data['YearsAtCompany' ].sort_values(ascending=False)|:5].index 


Out|32]: Int64Index([165, 131, 374, 1578, 776], dtype='int64', name='EmployeeNumber' ) 


图 3.21 


其 中 使 用 了 index 方法 获取 员工 编号 ， 并 以 此 识别 在 公司 工作 年 限 最 长 的 员工 。 
336 ”员工 的 整体 满意 度 


数据 集中 包含 了 一 个 JobSatisfaction 列 ， er FEA 1 一 
4。 下 面 使 用 head0) 方 法 来 合 看 前 5 个 观察 结 朱 ， 并 创建 一 个 字 殿 ， 其 中 数字 1 表示 低 工 


作 满 意 度 ， 
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值 2 表示 中 等 工作 满意 度 ， 等 等 。 随 后 ， 通 过 pandas Series 中 的 map0 方 法 将 


代码 转换 为 相应 的 类 别 ， 这 将 通过 各 目的 数 全 关联 每 个 键 ， 也 就 是 说 ，1 转换 为 Low，2 
转换 为 Medium， 等 等 。 接 下 来 , 我们 将 把 该 Series 重新 分 配 至 使 用 map0 方 法 操作 的 Series, 
对 应 代码 如 图 3.22 所 示 。 


In [33]: 


Out[ 33]: 


In [34]: 


In [35]: 


Out[35]: 


data[ ‘JobSatisfaction' ].head() 


EmployeeNumber 
4 


1 

2 2 
4 3 
5 3 
Fi 2 
Name: JobSatisfaction, dtype: int64 


JobSatisfaction_cat = { 
1: 'Low', 
2: ‘Medium’, 
ae Hien”. 
4: "Very High' 


Transform this encodings to meaninful labels 


data[ 'JobSatisfaction'] = data['JobSatisfaction' ].map(JobSatisfaction_cat) 
data[ ‘JobSatisfaction' ].head() 


EmployeeNumber 
1 Very High 
2 Medium 
4 High 
5 High 
7 Medium 
Name: JobSatisfaction, dtype: object 


图 3.22 


在 图 3.22 中 可 以 看 到 ， 我 们 得 到 了 所 需 的 映射 分 类 。 因 此 ， 当 在 pandas Series 中 执 
行 此 类 转换 时 ，mapO0 方 法 十 分 有 用 。 下 面 将 通过 value_counts(0) 方 法 计算 每 个 类别 的 出 现 
次 数 。 针 对 之 前 提出 的 问题 ， 获 得 标准 化 计数 结束 可 能 更 加 有 用 ， 因 而 可 将 当前 Series 
FEL, 100 以 获得 相应 的 百分比 值 ， 对 应 代码 如 图 3.23 所 示 。 

在 当前 数据 集中 ，31% 的 员工 对 目 己 的 工作 较为 满意 (Very High) 。 此 外 ， 我 们 还 
可 看 到 其 他 分 类 中 的 白 分 比 数 季 。 
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In [36]: data['JobSatisfaction'].value_counts() 


Out[36]: Very High 459 
High 442 
Low 239 
Medium 280 
Name: JobSatisfaction, dtype: int64 


In [37]: 100*data['JobSatisfaction'].value_counts(normalize=True) 


Out[37]: Very High 31.224490 
High 30.068027 
Low 19.659864 
Medium 19.047619 
Name: JobSatisfaction, dtype: float64 


3.4 rE 


假设 经 过 第 一 轮 问题 之 后 ， 人 力 资源 总 监 还 想 继续 了 解 员工 的 一 些 细节 问题 ， 并 癌 
你 分 配 了 一 些 新 的 任务 ， 上 具体 如 下 。 
口 ” 提交 一 份 员工 名 单 ， 其 中 员工 的 工作 请 意 度 较 低 。 
D ”提交 一 份 员工 名 单 ， 其 中 员工 的 工作 满意 度 与 工作 投入 程度 均 较 低 。 
LO) ”在 以 下 变量 中 ， 通 过 较 低 和 最 高 工作 满意 上 度 对 员工 进行 比较 : Age. Department 
和 DistanceFromHome。 


341 低 满 意 度 员工 


为 了 回答 这 一 问题 ， 可 通过 布尔 Series 索引 一 个 Series 或 DataFrame, i P/E TEI 
(masking) 或 布尔 双 引 。 对 此 ， 痛 先 需 要 使 用 比较 运算 和 伍 并 利用 data[JobSatisfaction ] == 

TLow' 值 比较 pandas Series， 如 图 3.24 所 示 。 

在 上 述 代码 运行 完毕 后 ， 针 对 每 名 员工 ， 将 得 到 一 个 包含 True 或 False 的 Boolean 
Series. HHH, True 表示 员工 的 JobSatisfaction (A+ Low; False 则 表示 该 值 不 等 于 Low. 

我 们 可 以 利用 该 pandas Boolean Series 索引 为 一 个 对 象 ， 如 Series 或 DataFrame. “4 
使 用 Boolean Series 索引 为 一 个 对 象 时 ， 将 得 到 一 个 新 的 Series 或 DataFrame， 其 中 包含 
J True 值 的 观察 结果 ， 如 图 3.25 所 示 。 
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data[ 'JobSatisfaction'] == “Low， 


EmployeeNumber 
False 
False 
False 
False 
False 
False 

True 
False 
False 
False 
False 
False 
False 
False 
False 

True 
False 
False 
False 
False 
False 

True 
False 
False 

True 


图 3.24 


In [43]: data.loc[data[ 'JobSatisfaction'] == 'Low'].index 


Out[43]: Int64Index([ 10, 20, 27, 31, 33, 38, 51, 52, 54, 68, 


1975, 1980, 1998, 2021, 2023, 2038, 2054, 2055, 2057, 2062], 
dtype='int64', name='EmployeeNumber', length=289) 


图 3.25 


因此 ， 如 果 利 用 data.loc[data['JobSatisfaction’] == 'Low'].index 索引 属性 并 通过 当 
Boolean Series 5| DataFrame， 将 会 得 到 较 低 JobSatisfaction 全 的 员工 名 单 。 


342 低 工作 满意 度 和 低 工 作 人 参与 度 的 员工 


JobInvolvement (工作 参与 度 ) 列 与 JobSatisfaction (VERE) 列 包含 了 相同 的 属 
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性 ， 因 而 包含 了 对 应 的 员工 号 (而 非 分 类 ) 。 此 处 ， 首 先 使 用 之 前 应 用 于 JobSatisfaction 
列 上 的 map 转换 ， 如 图 3.26 所 示 。 


In [44]: JobInvolment_cat 
1: LOW, 
‘Medium’, 


2 
3: "High', 
4: 'Very High’ 


data[ ‘JobInvolvement'] = data[ 'JobInvolvement' ].map(JobInvolment_cat) 


图 3.26 
考虑 到 当前 仅 考 得 两 列 中 包含 Low 值 的 员工 ， 因 而 可 在 两 个 Boolean Series 上 使 用 
“&” wen AF, EMG 21] JobSatisfaction 和 JobInvolvement HEE Low (AH mi LI x. 
再 次 说 明 , 这 里 采用 了 loc 选取 方法 以 及 index 属性 获取 特定 的 需求 条 件 , 如 图 3.27 所 示 。 


In [62]: loc[ (data[ 'JobSatisfaction'] == ‘Low') & (data['JobInvolvement'] == ‘Low')].index 


4 


Out[62]: Int64Index([33, 235, 454, 615, 1019, 1037, 1237, 1460, 1478, 1544, 1611, 1622, 
1905, 1956], 
dtype='int64', name='EmployeeNumber'' ) 


图 3.27 


图 3.27 显示 J JobSatisfaction 和 JobInvolvement IJE E Low 值 的 员工 号 列表 。 
3.4.3 ”员工 比较 


对 于 Low 和 Very High 的 JobSatisfaction, F mH eso 的 员工 进行 比较 ， 并 通过 
Age. Department. DistanceFromHome 变量 对 这 两 个 分 组 进行 比较 ， 其 国 将 使 用 到 分 组 操 
作 。 这 里 ， 分 组 操作 十指 应 用 一 系列 的 操作 行为 ， 包 括 划 分 、 应 用 和 组 合 ， 对 应 步 又 
如 下 。 

C1) Kioto. PTR PERK ASK, BK DataFrame 划分 为 一 组 DataFrame。 
这 将 生成 分 组 后 的 对 象 ， 其 中 包含 了 类 似 于 字典 的 结构 ， 且 每 个 分 组 均 与 不 同 的 键 相 

(2) 和 时 对 分 组 对 象 使 用 条 个 函数 进而 得 到 对 应 结 来 。 

G) 将 第 (2) 步 的 操作 结果 分 组 或 整合 为 一 个 新 的 数据 结构 ， 该 数据 结构 可 以 是 


new df 或 new series. 
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接 下 来 执行 比较 操作 ， 并 创建 一 个 新 的 DataFrame, 它 只 包含 作为 比较 标准 条 件 的 那 
些 观察 结果 ， 并 调用 DataFrame subset of interest。 此 处 将 采用 “|” 运 算 符 获取 员工 的 
Sefries， 其 中 ， 对 应 的 JobSatisfaction 为 Low 或 Very High， 经 适当 整合 后 可 使 用 shape 
属性 查看 新 创建 的 DataFrame。 随 后 ， 可 使 用 操作 value count 答 看 最 终 的 观测 结果 计数 
情况 ， 如 图 3.28 所 示 。 
In [46]: subset_of_interest = data.loc[(data['JobSatisfaction'] == "Low") | (data['JobSati 


subset_of_interest.shape 


Out[46]: (748, 33) 


In [47]: subset_of_interest[ ‘JobSatisfaction' ].value_counts() 


Out[47]: Very High 459 
Low 289 


Name: JobSatisfaction, dtype: int64 


图 3.28 


在 上 述 代码 中 ， 可 以 看 到 ， 当 前 DataFrame 包含 了 748 行 和 33 列 ; 另外 ， 上 有 具有 Very 
High 的 JobSatisfaction 显示 了 459 个 观察 结果 ， 而 具有 Low 的 JobSatisfaction 则 显示 了 
289 个 观察 结果 。 

下 面 仅 考查 我 们 关注 的 观察 结果 ,并 针对 新 创建 的 DataFrame 使 用 groupby IE EEX 
相关 变量 。 另 外 ， 还 将 对 从 grouped 操作 返回 的 对 象 加 以 命名 ， 对 应 代码 如 图 3.29 所 示 。 


In [50]: grouped = subset_of_interest.groupby('JobSatisfaction' ) 


In [51]: grouped.groups 
Out[51]: {'Low': Int64Index([ 10, 20, 27, 31, 33, 38, 51, 52, 54, 


1975, 1986, 1998, 2021, 2023, 2038, 2054, 2055, 2057, 2062], 
dtype='int64', name="EmployeeNumber', length=289), 
'Medium': Int64Index([], dtype='int64', name='EmployeeNumber'), 
'High': Int64Index([], dtype='int64', name='EmployeeNumber'), 
‘Very High': Int64Index([ 1, 8, 18, 22, 23, 24, 30, 36, 
40, 


2022, 2024, 2027, 2036, 2040, 2041, 2045, 2052, 2056, 2061], 
dtype='int64', name="EmployeeNumber', length=459) } 


图 3.29 
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不 难 发 现 ， 当 对 新 创建 的 对 象 使 用 groups0 方 法 后 ， 将 得 到 两 个 分 组 ， 即 Low 分 组 
和 Very High 分 组 ， 同 时 针对 每 个 所 关联 的 分 组 得 到 对 应 的 标记 或 索引 。 如 果 和 希望 得 到 与 
每 个 分 组 所 关联 的 数据 ， 则 可 使 用 get group(0) 方 法 ， 如 图 3.30 Ara. 


In [52]: grouped.get_group('Low').head() 


Out| 52]: 
Age Attrition BusinessTravel DailyRate Department DistanceFromHome Edi 


EmployeeNumber 


10 59 Travel_Rarely Research & 
Development 
20 29 | Travel_Rarely Research & 
Development 


27 36 Travel_ Rarely Sales 


31 34 Travel_Rarely A 
Research & 


33 32 Travel_Frequently Development 


5 rows * 33 columns 


图 3.30 
当 执 行 基于 Low 键 的 get group0 方 法 时 ， 将 得 到 与 该 Low 分 组 所 关联 的 DataFrame. 
O 注意 : 


关于 上 述 分 组 对 象 ， 实 际 上 可 从 原始 DataFrame 中 获取 Series, 但 是 ， 如果 党 试 通过 
名 称 获 取 Series， 则 无 法 获得 Series， 而 是 得 到 所 谓 的 groupby Series。 当 执行 诸如 mean 
这 一 类 方法 时 ， 将 会 看 到 该 方法 将 应 用 于 每 个 分 组 上 。 


因此 ， 如 果 调 用 分 组 对 象 的 Age Series 并 计算 均值 ， 值 得 到 每 个 分 组 的 均值 结果 。 
另外 ， 还 可 使 用 groupby Series 中 普通 Series 中 的 各 种 方法 。 例 如 ， 当 使 用 describe0 方 法 
时 ， 将 会 看 到 该 方法 应 用 于 Low 分 组 和 Very High 分 组 上 ， 如 图 3.31 所 示 。 

当 对 新 的 Series 应 用 相关 方法 后 ，Low 分 组 的 平均 年 龄 为 36.9; Very High 分 组 的 平 
均 年 龄 为 36.7。 除 此 之 外 ， 我 们 还 得 到 了 describe0 方 法 的 输出 结果 ， 并 应 用 于 Low 分 组 
和 Very High 分 组 上 。 从 describe0 方 法 得 到 的 Series 表示 为 一 个 pandas Series, 1813 Series 
包含 了 了 多重 索引 。 其 中 ， 第 一 级 索引 表示 为 Low 和 Very High 分 组 ; 第 二 级 索引 表示 为 
统计 值 的 名 称 ， 如 mean, std, min 等 ， 如 图 3.32 Pra. 

另外 ， 还 可 使 用 unstack0 方 法 将 结果 转换 为 一 个 DataFrame。 
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In [51]: grouped! 'Age' 


Out[51]: <pandas.core.groupby.SeriesGroupBy object at @x@@@001FBEABD23C8> 


In [52]: grouped[ 'Age'].mean 


Out[52]: JobSatisfaction 
Low 36.916955 
Very High 36.795207 
Name: Age, dtype: float64 


In [53]: grouped['Age'].describe 


Out[53]: JobSatisfaction 

Low count 9.000000 
mean 5.916955 
min L9 . 000000 
25% . 000000 
50% . 000000 
75% . 000000 
max . 000000 

Very High count 59 . 000000 
mean . 795207 
std . 125609 
min LS. 0090000 
25% . 000000 
50% . 000000 
75% . 000000 
max . 000000 

Name: Age, dtype: float64 


min |25% | 50 


JobSatisfaction 


Low |280.0 |36.916955 [9.245496 19.0|300|36.0 |420 [600] 


图 3.32 


接 下 来 ， 当 在 不 同 部 门 之 间 进 行 比 较 时 ， 可 使 用 value _counts()#il unstack() 方 法 但 看 
每 个 分 组 中 每 个 部 门 的 人 员 数 量 ， 如 图 3.33 所 示 。 

比较 过 程 中 使 用 了 normalize 操作 ， 其 中 ，3% 的 人 员 (JobSatisfaction 值 为 Low) # 
属于 Human Resources 部 门 ; 66% 的 人 员 隶 属于 Research & Development 部 1]; 29% 的 人 
员 录 属于 Sales 部 门 。 类 似 地 ， 还 可 得 到 Very High 分 组 的 细节 信息 。 
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In [55]: grouped[ ‘Department’ ].value_counts().unstack() 


aa | 
a IC 


In [56]: 1€0*grouped[ ‘Department’ ].value_counts(normalize=True).unstack 


jiii 
sobsatisacton| | | 


图 3.33 


最 后 ， 针 对 DistanceFromHome 比较 ， 可 使 用 describe0 和 unstackO 方 法 将 其 转换 为 
DataFrame， 并 在 DistanceFromHome 变量 间 比 较 两 个 分 组 ， 如 图 3.34 所 示 。 


In [57]: grouped[ 'DistanceFromHome' ].describe().unstack 


ester: | feoum[moan [st | min 25% 0% |75% | man 
oem | | | | | | | 
[EECEICICOE 


In [58]: grouped[ 'DistanceFromHome' ].describe().unstack()['mean'].plot(kind='bar’ 


Out[58]: <matplotlib.axes._subplots.AxesSubplot at @x1fbeabb1a9e> 


jobSatisfaction 


图 3.34 
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其 中 ， 我 们 得 到 了 源 自 DistanceFromHome 比较 结果 的 一 个 DataFrame， 以 及 一 个 源 
自 比 较 结 果 平 均值 的 柱状 图 。 
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KAIA S pandas 及 其 主要 对 象 ， 如 Series 和 DataFrame， 以 及 在 此 基础 上 的 主要 
操作 。 此 外 ， 我 们 还 通过 pandas 处 理 了 一 些 每 名 数据 分 析 帅 每 天 部 会 过 到 的 问题 。 

第 4 章 将 通过 一 些 强大 的 工具 ， 如 matplotlib 库 和 seaborn 库 ， 人 处理 可 视 化 和 数据 分 
析 问 题 。 


第 4 草 可 视 化 和 数据 分 析 


可 视 化 是 数据 科学 和 数据 分 析 中 的 一 个 重要 主题 。 针 对 各 种 功能 的 可 视 化 操作 ， 
Python 提供 了 多 种 选择 方案 。 本 章 将 讨论 两 种 较为 第 见 的 Python 可 视 化 库 , 妈 matplotlib 
库 和 seaborn 库 ， 此 外 还 将 讨论 与 可 视 化 相关 的 各 种 pandas 功能 。 

草 主 要 涉及 以 下 主题 。 

matplotlib IS - 

pyplot 简介 。 

顾问 对 象 的 接口 。 

T LAY AE ERE 

基于 seaborn 和 pandas 的 数据 分 析 。 
FAAS} AT AEE 

变量 则 的 关系 。 


DODO CO O DDU > 


4.1 matplotlib fa 7+ 


matplotlib 则 在 简化 操作 ， 同 时 实现 菜 些 较 为 复杂 的 任务 。 基 本 上 讲 ，matplotlib 是 一 
个 绘制 奋 ， 可 生成 多 种 格式 以 及 交互 环境 下 的 局 质量 图 形 。 本 广 讨论 matplotlib 的 功能 、 
基本 概念 、 图 像 、 子 图 (坐标 系 ) 和 坐标 轴 。 除 此 之 外 ，matplotlib 还 可 用 于 Python 脚本 、 
Python 解释 器 、Python Shell, Jupyter Notebook, Web 应 用 程序 服务 器 ， 以 及 各 种 图 形 用 
户 接口 中 。 

下 面 考查 Jupyter Notebook， 其 中 包含 了 较为 丰富 的 matplotlib 信息 。 在 执行 具体 操 
作 之 间 ， 可 首先 访问 matplotlib.org， 其 中 包含 了 相关 示例 、 第 见 的 问题 以 及 图 卢 库 。 

当 与 matplotlib HE CVE, AM- RRN PA Ae, AN 4.1 显示 了 相应 的 主 
FEA] o 

图 4.2 Sh) hes RARE ETT S ER 同时 可 会 看 对 应 的 代码 ,并 可 对 其 进行 调整 
以 实现 最 终 的 可 视 化 效果 。 相 应 地 ， 使 用 describe 方法 将 显示 一 个 较 小 的 DataFrame， 其 
中 包含 数据 集中 每 个 数值 变量 的 所 有 描述 性 统计 信息 。 当 前 ， 如 果 打 算 逐 个 可 视 化 所 有 
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这 些 变 量 ,那么 ,可 以 将 hist 方法 应 用 于 DataFrame, 而 不 仅仅 是 一 个 Series, 这 也 是 pandas 
和 可 视 化 功能 的 一 个 优点 。 


>ectiond x Matplotiib x > Thumbnail gallery — Ms X ExploratoryDataAnalysis X 


matpi<tlib 


Click on any image to see full size image and source code 


图 4.1 


图 4.2 中 可 以 看 到 部 分 代码 内 容 。 恋 者 可 访问 matplotlib 官方 站 点 Cmatplotlib.org) , 
以 查看 完整 的 代码 内 容 。 

在 讨论 matplotlib 库 的 主要 概念 之 前 ， 下 面 首 先 介绍 matplotlib 中 的 一 些 基 本 术语 ， 
如 绘图 窗口 、 子 图 /坐标 系 、 坐 标 轴 ， 如 图 4.3 所 示 。 
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violin plot box plot 


x? x3 
xlabel 


F Ee CeallToolbar 


入 © + 西国 APACS/SOUDPIOL 
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FAXR 4.3 PH SUA ABET IAG. 

OU ”绘图 窗口 。 绘 图 窗口 表示 层次 结构 中 的 第 一 层 容器 ， 同 时 也 是 包含 绘制 内 容 的 
整体 窗口 。 我 们 可 设置 多 个 绘制 窗口 ， 且 绘制 窗口 中 可 包含 多 个 坐标 系 。 

D ”坐标 系 / 子 图 。 大 部 分 绘制 内 容 与 某 个 轴 回 或 子 图 相关 ， 且 涉及 多 个 组 件 ， 如 x 
轴 和 y 轴 。 此 外 ， 图 4.3 中 还 包含 了 绘制 区 域 、 刻 度 线 等 。 作 为 子 图 的 一 部 分 内 
容 ， 其 中 还 包含 了 其 他 对 象 ， 如 x HR x 轴 中 的 x 标记 、x 刻度 ， 以 及 该 刻度 芯 
标记 。 这 也 是 matplotlib 中 基本 的 层次 结构 。 

D ”坐标 轴 。 层 识 结 构 最 上 方 包含 了 绘图 窗口 ， 访 窗口 内 包含 了 多 个 子 图 。 图 4.3 
中 仅 包 含 了 一 个 子 图 。 相 应 地 ， 绘 图 窗口 中 还 可 包含 多 个 子 图 。 每 个 子 图 还 包 
含 了 其 他 元 素 ， 一 般 为 x 轴 、y 轴 和 其 他 元 素 。 


4.2 pyplot 简介 


下 面 将 通过 pyplot 接口 使 用 matplotlib， 这 一 过 程 涉 及 pyplot 接口 和 相关 示例 。 
在 Jupyter Notebook 中 ， 应 留意 以 下 命令 。 


smatplotlib inline 


1X tH 71H Al Jupyter Notebook 的 一 种 基本 操作 方式 ， 进 而 但 看 Jupyter Notebook 中 的 
绘图 。 夺 当前 绘制 窗口 中 未 使 用 该 命令 并 执行 上 述 代 人 码 行 ， 绘 制 结果 将 显示 于 不 同 的 密 
口中 。 

基本 上 讲 ，pyplot 表示 为 一 个 命令 样式 图 数 集合 ， 并 使 得 matplotlib 的 工作 方式 与 
MATLAB 关 似 ， 其 工作 理念 可 描述 为 : 持 有 一 组 函数 ， 且 每 个 图 数 均 可 对 绘制 窗口 进行 
修改 ， 该 绘制 窗口 被 视 为 当前 的 绘制 窗口 。 因 此 ， 每 个 函数 均 可 对 绘制 窗口 执行 某 种 操 
作 。 例 如 ， 可 生成 一 个 绘制 窗口 ， 可 在 菜 个 绘制 窗口 中 创建 一 个 绘制 区 域 ， 可 在 绘制 窗 
口 的 于 图 中 绘制 一 条 卫 线 ;， 可 修改 标记 ; 等 等 。 当 使 用 pyplot 时 ， 和 需要 知晓 哪 一 个 窗口 
是 当前 绘制 窗口 ， 考 查 以 下 示例 。 

(1) 首先 需要 问 当 前 会 话 中 导入 matplotlib， 如 下 所 示 。 


import matplotlib as plt 


(2) 第 一 条 命令 是 设置 plt 模块 和 pyplot 模块 中 的 plot 函数 ， 并 传递 一 个 数值 列表 。 
因此 ， 执 行 该 命令 后 将 生成 一 个 绘制 窗口 ， 如 图 4.4 Bros (OR BA 4.4 中 无 法 看 到 该 绘制 
窗口 ) 。 其 中 ， 绘 制 窗 口中 包含 了 一 个 子 图 ， 该 子 图 绘制 了 一 条 直线 ， 即 列表 中 数值 的 
图 形 表 现 方 式 。 
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In [32]: |plt.plot([1,2,3,2.5|]. 
#pLt.ylabeLl( ‘some numbers ') 


Out[32]: [<matplotlib.lines.Line2D at @x211f@1f271@>] 


图 4.4 


在 图 44 中 ， 可 以 看 到 该 图 数 的 操作 内 容 ， 且 该 寡 口 极 视 为 当前 的 绘制 窗口 。 对 于 
其 他 函数 ， 例 如 调用 plt.ylabel， 将 在 y 轴 上 设 前 一 个 标记 ， 即 ylabel。 在 当前 示例 中 ， 该 标 
记 航 视 为 一 些 数 字 。 当 再 识 运行 时 ， 对 应 结 示 如 岁 4.5 所 示 。 其 中 ， 对 应 标记 喧 示 于 y 轴 上 。 


In [3]: |plt.plot([1,2,3,2.5]) 
plt.ylabel( "some numbers’ ) 


Out[3]: Text(@,@.5,'some numbers' ) 


ot 
2 
E 
=] 
(= 
qı 
= 
= 
ui 


图 4.5 
(3) pyplot PRA HAM RAIA plot RAL, RAAT PAN SBA. PON, ATE TE 
两 个 数值 列表 ， 且 假设 第 一 个 列表 为 x 坐标 ， 第 二 个 列表 为 y 坐标 。 在 当前 示例 中 ， 默 
认 状 态 下 ， 访 图 数 将 绘制 一 条 直线 ， 如 图 4.6 所 示 。 
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图 4.6 


上 述 界 线 的 工作 方式 可 搬 述 为 : 通过 调用 函数 序列 构建 图 ， 并 应 用 于 当前 绘制 窗口 
和 当前 子 襟 口中 。 下 面 考 得 如 何 通 过 pyplot 构建 图 ， 具 体 步 又 如 下 。 

C1) FJ plot 函数 洪 加 两 个 列表 ， 如 前 所 述 ， 默 认 行 为 是 绘制 一 条 和 直线 。 因 此， 可 以 
看 到 所 显示 的 x M y, BRAE Cightblue) ， 且 直线 的 尺寸 Cinewidth) 为 3， 对 
应 的 输出 结果 如 图 4.7 所 示 。 


plt.plot([1, 2, 3, 4], [18, 20, 25, 30], color='lightblue', linewidth=3) 
#pLlt.scatter(/[@.3, 3.8, 1.2, 2.5], [11, 25, 9, 26], color='darkgreen', marker='*' ) 
#pLt.xlLim(@.5, 4.5) 

#pLt.title( "Title of the plot") 

#plt.xLabel ("This is the x-Label") 

#pLt.ylabel("This is the y-Label"); 


Out[34]: [<matplotlib.lines.Line2D at @x211f02779@8>] 


图 4.7 
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从 图 4.7 中 可 以 看 到 ,一些 函数 已 被 注释 掉 。 下 面 将 尝试 逐 行 移 除 注 释 ， 并 查看 每 个 
函数 带 来 的 变化 内 容 。 

(2) 散 点 图 对 所 提供 的 坐标 进行 绘制 ， 而 非 绘制 一 条 直线 。 在 当前 示例 中 ， 对 应 坐 
标 分 别 为 x 坐标 和 y 坐标 。 除 此 之 外 ， 图 中 还 显示 了 一 些 绘制 标记 。 对 此 ， 可 定义 一 个 
参数 并 将 标记 的 颜色 设置 为 darkgreen， 对 应 结果 如 图 4.8 所 示 。 


plt.plot([1, 2, 3, 4], [10, 20, 25, 30], color='lightblue', linewidth=3) 
plt.scatter([@.3, 3.8, 1.2, 2.5], [11, 25, 9, 26], color='darkgreen', marker='*') 
#plt.xlim(@.5, 4.5) 

#pLt.titLe("Title of the plot") 

#pLlt.xlabel("This is the x-Label") 

#pLt.ylabel("This is the y-Label"); 


<matplotlib.collections.PathCollection at 0x211f0471320> 


图 4.8 


(3) 下 面 将 通过 另 一 个 图 数 修改 x 的 极限 值 。 其 中 ， 最 小 值 为 0.5， 最 大 值 为 4.5。 
也 就 是 说 ，x 轴 上 的 绘制 范围 为 0.5~4.5. ÆR 4.9 中 可 以 看 到 调整 后 的 效果 ， 同 时 逐 行 
去 除了 注释 内 容 。 

(4) 下 一 个 函数 将 添加 一 个 绘制 标题 并 调整 绘制 标记 。 在 图 4.10 中 ,可 以 看 到 添加 
了 对 应 的 标题 、x 标记 和 y 标记 。 

当 与 子 图 或 绘制 窗口 协同 工作 时 ， 一 种 较为 方便 的 方法 是 使 用 pyplot 接口 。 但 在 单 
一 绘制 窗口 中 与 多 个 绘制 窗口 或 多 个 子 图 协同 工作 时 ， 这 一 过 程 往往 会 产生 混 清 。 
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plt.plot([1, 2, 3, 4], [10, 290, 25, 30], color='"lightblue', linewidth=3) 
plt.scatter(|8.3, 3.8, 1.2, 2. [11, 25, 9, 26], color='darkgreen', marker='^') 
plt.xlim(@.5, 4.5 

#plt.title("Title of the plot") 

#pLt.xLabeL( "This 1s the x-Label") 

#pLt.ylabel( "This 1s the y-Label"); 


<matplotlib.collections.PathCollection at 6x211f@47132@> 


图 4.9 


.plot([1, 2, 3, 4], [10, 20, 25, 30], color='lightblue’, linewidth=3) 
.scatter([@.3, 3.8, 1.2, 2.5], [11, 25, 9, 26], color="darkgreen', marker='*') 
.xlim(@.5, 4.5) 

title("Title of the plot") 

.Xlabel("This is the x-label" 

.ylabel("This is the y-label"); 
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This is the x-label 


图 4.10 
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(5) 运行 当前 示例 ， 相 关内 容 如 图 4.11 所 示 。 


In [6]: | import numpy as np 
def f(t): 
return np.exp(-t) * np.cos(2*np.pi*t) 


np.arange(@.@, 5.0, 0.1) 
np.arange(@.@, 5.0, 0.02) 


图 4.11 


(6) 根据 图 4.11 中 的 数据 ， 可 创建 一 个 包含 两 个 子 图 的 绘制 窗口 。 相 应 地 ， 首 先 将 
生成 一 个 绘制 窗口 ， 并 于 随后 添加 一 个 子 图 。 此 处 需要 构建 一 个 两 行 一 列 的 子 图 网 格 。 
这 里 将 绘制 所 生成 并 定义 的 tL、Kb， 对 应 结果 如 图 4.12 所 示 。 


In [6]: import numpy as np 
def f(t): 
return np.exp(-t) * np.cos(2*np.pi*t) 


np.arange(@.0, 5.0, 0.1) 
np.arange(@.0, 5.0, 0.02) 


. figure() 
t. subpiot(2, 1, 1) 
-PLOt(ti, 二 [1 Do) 


-Sübplot(2, 1, 2) 
.plot(t2, np.cos(2*np.pi*t2), 'r--') 


t.ylabel("Y label"); # Which subplot is modifying this function? 


图 4.12 


(7) 图 4.12 中 使 用 了 男 一 个 命令 调整 绘制 过 程 中 的 参数 ， 且 仍 将 得 到 两 行 一 列 的 网 
格 ， 即 第 二 幅 绘 图 ， 其 中 将 绘制 t2 对 象 并 使 用 了 标记 。 为 了 对 标记 进行 修改 ， 需 要 保持 
当前 子 图 ， 如 图 4.13 所 示 。 

因此 ， 由 于 可 以 确定 所 引用 的 对 象 ， 因 而 建议 选用 面向 对 象 的 接口 。 在 当前 示例 中 ， 
当 使 用 某 个 函数 时 ， 应 确保 知晓 对 应 的 子 几 或 当前 绘制 窗口 。 
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figure() 
.subplot(2, 1, 1) 
.plot(t1, FELL), “ba. 


subplot(2, 1, 2) 
plot(t2, np.cos(2*np.pi*t2), 'r--') 


- .ylabel("Y label"); # Which subplot is modifying this function? 


图 4.13 
43 面向 对 象 接 口 


本 节 讨 论 面向 对 象 接 口 matplotlib， 其 中 主要 涉及 以 下 主题 。 

O 面 问 对 象 接口 。 

”利用 子 图 网 格 创建 绘制 窗口 。 

CO) 通过 相关 方法 进行 绘制 。 

在 面 问 对象 接口 中 ， 需 要 生成 对 象 并 针对 每 个 对 象 调用 相应 的 方法 ， 进 而 面 癌 该 对 
象 进 行 调整 。 下 面 考 得 一 个 简单 的 示例 ， 并 利用 面 癌 对 象 接 口 生成 绘图 。 对 此 ， 一 般 可 
XH plt.subplots 同时 创建 两 个 对 象 。 当 创建 绘制 窗口 对 象 时 ， 一般 将 其 称 作 fig， 而 男 一 
个 轴 对 象 则 称 作 ax。 在 当前 示例 中 ， 于 认 函数 将 生成 包含 单一 轴 对 象 的 绘制 窗口 ， 或 者 
是 一 个 子 匈 。 由 于 我 们 需要 创建 目 己 的 对 象 ， 因 而 级 进行 适当 调整 。 当 调整 绘 和 多、 标题 
或 放置 标记 时 ， 可 使 用 此 类 对 索 上 的 相关 方法 。 下 面 考 人 租 一 些 示 例 ， 并 将 相应 的 示意 图 
作为 参考 点 。 其 则 将 使 用 对 象 上 的 plot0 方 法 ， 绘 制 NumPy 数组 的 X 和 yl 数组 。 接 下 来 
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使 用 相同 的 对 象 ， 并 绘制 x 和 yY2。 随 后 ， 针 对 同一 对 象 ， 将 分 别 设置 x 标记 、y 标记 以 
及 标题 ， 对 应 结果 如 图 4.14 Aran. 


# Object Oriented Interface 

fig, ax = plt.subplots() 

plot(x, y1, ‘red') 

plot(x, y2, ‘blue') 

set_title( ‘Quadratic and Cubic Powers’ ) 
set_xlabel('x values’) 

set ylabel('y values’); 


ax. 
ax. 
ax. 
ax. 
ax. 


Quadratic and Cubic Powers 


x Values 


图 4.14 


下 面 考 租 如 何 利用 pyplot 接口 生成 相同 的 绘制 结果 。 在 pyplot HAH, FCA AA T 
式 的 命令 创建 绘制 窗口 ，plot 函数 将 执行 此 项 任务 。 画 外 ,还 可 和 在 此 关 函 数 中 传递 多 个 参 
Blo AIG, Ti sete A PAT AAP Ay: 第 一 个 坐标 对 ， 即 x 和 yl 坐标 ， 以 表明 绘制 一 条 红 
线 ， 然 后 可 传递 第 二 个 坐标 对 ， 即 x 和 y2 坐标 ， 以 表明 绘制 一 条 蓝 线 。 接 下 来 ， 可 针对 
该 对 象 设置 x 标记 和 yy 标记， 对 应 的 输出 结果 如 图 4.15 Ata. 

鉴于 昔 新 生成 相同 的 绘制 结果 ， 因 而 代 人 码 量 也 有 所 减少 。 这 里 的 问题 是 ， 面 同 对 象 
接口 的 优势 是 什么 ? 当 与 条 个 绘制 窗口 中 的 多 个 于 图 协同 工作 时 ， 和 面 同 对 象 接口 的 优点 
旭 可 显现 出 来 。 因 此 ， 如 末 在 一 个 绘制 稳 口 中 仅 生 成 一 个 子 图， 那么 ， 较 好 的 方法 是 使 


HAIR HO pyplot。 
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因此 ， 为 了 生成 子 图 网 格 ， 可 使 用 plt.subplots 函数 ， 并 可 指定 所 需 的 行 数 和 列 数 。 
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企图 4.16 中 显示 了 4 个 子 图 。 


# pypLot 

plt.plot(x, yi, ‘red*, x, y2, “blue*) 
plt.title( ‘Quadratic and Cubic Powers’) 
plt.xlabel('x values") 

plt.ylabel('y values‘); 


Quadratic and Cubic Powers 


0 
x Values 


In [11]: | fig, axes = plt.subplots(nrows=2, ncols=2) 


100 100 
0.75 
0.50 
0.25 


0.00 
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当前 ， 可 对 每 个 对 象 加 以 引用 ， 这 也 是 面 癌 对 象 接口 的 优点 之 一 。 下 面 考 会 为 一 个 
示例 ， 并 再 次 运行 代码 创建 两 个 对 象 ， 即 绘制 窗口 对 象 和 坐标 轴 对 象 。 在 当前 示例 中 ， 
坐标 轴 表 示 为 包含 4 个 子 图 的 多 维 NumPy 数组 。 当 访问 子 图 时 ， 需 要 使 用 NumPy 数组 
符号 。 因 此 ， 第 一 个 子 图 表示 为 索引 (0,0) 的 子 图 。 如 果 需 要 对 该 对 象 进 行 适当 调整 ， 
则 可 使 用 相应 的 方法 完成 这 一 操作 。 在 当前 示例 中 ， 假 议 震 要 修改 标题 内 容 ， 并 攻 症 议 
对 象 的 标题 。 也 束 是 说 ， 在 索引 (0,0) 中 ， 可 将 标题 设置 为 Upper Left。 通 过 对 应 的 索引 ， 
可 引用 每 个 子 图 ， 并 利用 具体 的 操作 方法 。 此 处 将 针对 每 个 对 象 调整 标题 内 容 。 考 虑 到 
对 象 axes 表示 为 一 个 NumPy 数组 ,因而 可 以 友 代 是 售 要 对 每 个 对 象 、 每 个 子 独 进行 类 似 
的 更 改 。 

因此 ， 可 针对 每 个 子 图 使 用 flat 属性 ， 并 将 其 称 作 ax. JA, 4 xticks 和 yticks 设置 
为 至 表 ， 并 对 其 进行 移 除 。 当 运行 代码 时 ， 可 以 看 到 ，xticks 或 yticks 将 不 复 存 在 。 由 于 
这 里 设置 了 标题 ， 因 而 此 处 显示 了 全 部 标题 ， 如 图 4.17 Aras. 

fig, axes = plt.subplots(nrows=2, ncols=2) 
axes[0,0].set_title('Upper Left’) 
axes[@,1].set_title('Upper Right") 
axes[1,0].set_title('Lower Left’) 
axes[1,1].set_title('Lower Right") 
# To iterate over all items in a multidimensional numpy array, use the flat attribute 
for ax in axes.flat: 
# Remove all xticks and yticks... 
ax.set(xticks=[], yticks=[ ]) 


Fig .tight_layout(); 


Upper Left Upper Right 


Lower Left Lower Right 


图 4.17 


由 于 创建 了 绘制 窗口 对 象 ， 因 而 可 使 用 tight layout 这 一 类 绘制 窗口 方法 ， 且 仅 关 注 
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所 强 含 的 理念 。 我 们 创建 了 相关 对 象 ， 并 于 随后 针对 所 创建 的 每 个 对 象 应 用 相关 方法 。 
企图 4.18 中 包含 了 多 个 实例 以 及 生成 结 琳 。 


np.linspace(start=-5, stop=5, num=150) 


# ALL functions in one axes 

fig, ax = plt.subplots(figsize = (7,4)) 
.plot(x, x, label='Linear') 
.Plot(x, x**2, label="Quadratic' ) 
.Plot(x, x**3, label='Cubic' ) 
.Plot(x, x**4, label='4th Power') 
.legend(); 


— Linear 
Quadratic 

—— Cubic 

—— 4th Power 


图 4.18 


下 面 生成 包含 单一 子 图 的 独立 绘制 窗口 ， 并 绘制 x 的 4 OT, TAIN eee Gta EAS I] 
的 子 图 中 进行 绘制 。 在 单元 中 ， 将 创建 包含 两 行 两 列 网 格 的 子 图 ， 因 而 总 计 4 个 子 图 。 
接 下 来 使 用 面 回 对 象 接口 针对 第 一 个 子 图 放置 标题 ， 并 针对 Linear 函数 设置 给 图。 对 于 
第 二 个 绘图 ， 其 索引 为 (0,1)，(0,1)， 将 设置 标题 并 绘制 xx 和 x 的 平方 对 应 结果 如 图 4.19 
HIZR o 

在 图 4.19 中 可 以 看 到 ， 其 中 包含 了 4 个 子 图 ， 且 每 个 子 图 对 应 一 个 函数 。 在 图 4.20 
中 ， 还 可 进一步 但 看 x 的 10 次 方 。 因 此 ， 这 体现 了 面向 对 象 接口 的 工作 方式 ， 同 时 也 是 
matplotlib 的 应 用 方式 。 

内 此 ， 面 同 对 象 接口 的 方便 性 可 见 一 斑 。 
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In [15]: # 4 Axes/SubpLots: One function in one axes 
fig, axes = plt.subplots(nrows=2, ncols=2, figsize = (7,4.5)) 
axes[@,0].set_title('Linear') 
axes[0,0].plot(x, x) 
axes[0,1].set_title( ‘Quadratic’ |) 
axes[@,1].plot(x, x**2) 
axes[1,0].set_title('Cubic' 
axes[1,@].plot(x, x**3) 
axes[1,1].set_title('4th Power’ ) 
axes[1,1].plot(x, x**4) 
fig.tight_layout(); 


Linear Quadratic 


-2 0 
4th Power 


# A more elegant appreach 
fig, axes = plt.subplots(nrows=2, neols=5, figsize = (14,4.5)) 
for 1, ax in enumerate(axes.flatten()): 

ax.set_title("x to the {:d}".format(i+1)) 

ax.plot(x, x**(1+1)) 


fig .tight_layout(); 


x to the 1 x to the 2 x to the 3 x to the 4 x to the 5 


2000000 
1000000 
0 
-1000000 


-2000000 +L, 
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4.4 ”第 见 的 自 定义 方式 


matplotlib 的 一 个 优点 是 ， 可 对 绘图 中 的 蛙 一 元 系 进 行 调整 ， 当 采用 matplotlib 执行 
数据 分 析 时 ， 第 会 看 到 一 些 较为 第 用 的 自 定义 方式 。 

下 面 首 先生 成 一 些 工 作 数据 ， 如 下 所 示 。 

# Generating data 

x = noo lanspace{ -np-pi, mp.pi, 200) 


Sine, cosine = np.sin(x), np.cos (x) 


并 在 此 基础 上 查看 matplotlib 中 的 各 种 自 定 义 特 性 。 
4.4.1 颜色 


鼎 色 与 绘制 窗口 中 的 各 种 元 系 均 有 所 天 联 ，matplotlib 对 此 提供 了 较 好 的 文 持 。 
matplotlib 中 使 用 闫 色 最 第 见 的 方式 是 闫 色 名 称 或 其 自学 母 。 因 此 ， 对 于 每 种 元 又 ， 
如 标题 柱 、 和 耻 线 或 文本 的 闫 色 ， 可 传 违 一 个 附加 的 参数 ， 其 中 包含 了 对 应 闫 色 的 衬 从 串 。 
例如 ， 对 于 昌 色 来 说 ， 可 传递 一 个 字 付 串 b， 或 者 传递 blue; 对 于 绿色 来 说 同样 如 此 ， 可 
传递 一 个 字符 串 g， 或 者 传递 green. 
下 列 内 容 展示 了 利用 的 两 色 及 其 首 字 母 列表 。 
b: HE. 
2: 绿色 。 
| 红色 。 
C: 育 色 。 
m: 洋红 色 。 
y: RE. 
k: Bf. 
W: 日 色 。 
其 他 允许 使 用 的 其 色 名 则 是 HTML/CSS WEA., Plu burlywood 和 chartreuse. 
O s. 
此 类 颜色 名 共计 147 个 ， 读 者 可 访问 https://www.w3schools.com/tags/ref_ colornames.asp 
以 了 解 更 多 内 容 。 


在 matplotlib 中 ， 为 一 种 闫 色 的 指定 方式 是 使 用 十 六 进 制 数值 ， 这 在 HTML 或 CSS 
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中 己 有 所 体现 。 例 如 可 传递 #0000FF 这 一 类 数值 ，matplotlib 将 对 此 予以 支持 。 

通过 传递 0 一 1.0 的 字符 串 表 达 方 式 ， 还 可 指定 相应 的 灰 度 〈 而 非 颜 色 ) 。 其 中 ， 
0.0 表示 为 黑色 ，1.0 表示 为 日 色 ， 其 间 的 每 个 数值 均 表 示 为 灰 度 着色 。 例 如 ，0.75 表示 
浅 灰 色 。 

除 此 之 外 , 还 可 传递 RGB 元 组 , 其 中 的 最 后 一 个 数值 定义 为 透明 度 值 , 也 称 作 Alpha. 
当 传 递 包含 4 个 元 素 的 元 组 时 ，matplotlib 将 前 3 Am REREN RGB WE, JPR 
个 解释 为 Alpha 全 。 因 此 ， 人 假设 需 要 将 正弦 曲线 看 色 为 红色 ， 则 可 使 用 color='red'; 而 对 
于 余弦 曲线 ， 则 可 使 用 color='#165181', WK] 4.21 所 示 。 


In [20]: fig, ax = plt.subplots() 
ax.plot(x, sine, color='‘red' ) 
ax.plot(x, cosine, color='#165181'); 


图 4.21 
在 图 4.21 中 可 以 看 到 ， 当 运行 代码 单元 时 ， 将 分 别 显示 有 具有 不 同 颜色 的 曲线 。 
4.4.2 ”限定 坐标 轴 
利用 set xlim0) 方 法 ， 可 对 x 轴 进 行 限 定 ; 而 使 用 set ylimg0 方 法 ， 则 可 对 y 轴 进 行 限 
制 。 此 类 方法 接收 两 个 数值 ， 即 最 小 值 和 最 大 值 ， 如 图 4.22 所 示 。 
在 图 4.22 中 可 以 看 到 ， 两 个 轴 间 的 默认 限定 条 件 已 发 生变 化 。 
443 设置 刻度 和 刻度 标记 


matplotlib 可 和 莹 试 生成 相对 合理 的 刻度 和 刻度 标记 。 这 里 ， 刻 上 度 是 指 水 平 烛 同上 的 标 
记 ; 而 刻度 标记 或 刻度 标签 则 表示 与 刻度 标记 对 应 的 数字 或 数值 。 男 外 ， 根 据 具体 情况 ， 
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还 可 对 刻度 标记 和 刻度 标 丛 修改， 如 图 4.23 所 示 。 


fig, ax = plt.subplots() 

ax.plot(x, sine, color='red') 
ax.plot(x, cosine, color='#165181' ) 
ax.set_xlim(-3.5,3.5) 
ax.set_ylim(-1.2,1.2); 


fig, ax = plt.subplots() 
ax.plot(x, sine, color='red') 
ax.plot(x, cosine, color='#165181') 


ax.set_xlim(-3.5,3.5) 
ax.set_ylim(-1.2,1.2) 


.set_xticks([-np.pi, -np.pi/2, ©, np.pi/2, np.pi]) 
x.set_yticks(np.arange(-1,1.1,0.5)); 


=1.5/1 0.000 


图 4.23 
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在 图 4.23 F, x WA y 轴 上 包含 了 一 组 目 定 义 刻度 标记 和 和 刻度 标签 。 

类 似 于 修改 xticks 的 位 置 , 还 可 对 xticks 的 标签 进行 调整 。 假 设 需 要 x 轴 上 的 标记 显 
示 为 -xX 和 -mW2 这 一 类 数学 符号 ， 则 可 利用 set xticks, set yticks、set xticklabels 和 
set yticklabels 进行 修改 并 赋予 新 值 ， 如 图 4.24 所 示 。 


In [23]: | fig, ax = plt.subplots() 
ax.plot(x, sine, color='red') 
ax.plot(x, cosine, color='#165181' ) 


ax.set_xlim(-3.5,3.5) 
ax.set_ylim(-1.2,1.2) 


ax.set_xticks([-np.pi1, -np.pi/2, ©, np.pi/2, np.pil) 
ax.set_yticks([-1,0,1]) 


ax.set_xticklabels([r'$-\pi$', r'$-\pi/2$', r'$e$', r'$+\pi/2$', r'$+\pi$'], size=17) 
ax.set_yticklabels(['-1','9@','+1'], size=17); 


+1 


图 4.24 


在 图 4.24 中 ， 我 们 修改 了 刻度 标签 值 ， 并 以 数学 符号 的 方式 予以 呈现 。 
444 图 例 


legend0) 方 法 用 于 生成 绘图 中 的 曲线 图 例 ， 如 可 辨识 正弦 曲线 和 余 强 曲线 。 因 此， 和 需 
要 针对 所 绘制 的 每 条 百 线 指 定 一 个 标记 。 对 此 ， 可 使 用 legend0) 方 法 并 传递 相关 参数 ， 进 
而 通知 matplotlib 标记 的 放置 位 置 ， 如 几 4.25 所 示 。 

在 图 4.25 中 可 以 看 到 ， 正 弦 函 数 和 余 强 函数 图 例 置 于 图 中 的 左上 方 ， 进 而 可 通过 名 
称 方便 地 识别 每 条 和 卫 线 。 
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fig, ax = plt.subplots() 
ax.plot(x, sine, color='red', label='Sine' ) 
ax.plot(x, cosine, color='#165181', label='Cosine’ ) 


ax.set_xlim(-3.5,3.5) 
ax.set_ylim(-1.2,1.2) 


ax.set_xticks([-np.pi, -np.pi/2, ©, np.pi/2, np.pi]) 
ax.set_yticks([-1,0,1]) 


ax.set_xticklabels([r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$'], size=17) 
ax.set_yticklabels(['-1','@','+1'], size=17) 


ax.legend(loc='upper left'); 


+] 


图 4.25 
445 标注 


相应 地 ， 和 存在 两 个 主要 函数 或 方法 可 执行 标注 工作 。 上 有 具体 来 说 ， 可 通过 指定 所 示 文 本 
的 X 坐 标 和 y 坐标 使 用 textO0 方 法 ， 廊 方法 的 第 三 个 参数 为 实际 绘制 的 文本 内 容 ， 如 网 4.26 
HIZR o 

在 图 4.26 中 ， 标 注 (0,0) 通 过 ax.text(-0.25,0,"(0,0)) 生 成 ， 标注 (x,0) 则 通过 ax.text 
(np.pi-0.25,0, r'$(\pi,0)$', size=15) 方 法 生成 。 除 此 之 外 ，annotate 方法 则 是 男 一 个 绘图 标注 

annotate 方法 接收 多 个 参数 ,针对 之 前 所 展示 的 输出 结果 , 此 处 可 利用 xytext=(1,-0.7) 
指定 文本 显示 位 置 ， 而 在 arrowprops=dict(facecolor='blue")) 中 ， 我 们 针对 第 头 图 标 传 递 了 
一 个 字典 
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In [25]: fig, ax = plt.subplots() 
ax.plot(x, sine, color= red , label= sine ) 
ax.plot(x, cosine, color='#165181', label=‘Cosine’ ) 


ax.set_xlim(-3.5,3.5) 
ax.set_ylim(-1.2,1.2) 


ax.set_xticks([-np.pi, -np.pi/2, ©, np.pi/2, np.pi]) 
ax.set_yticks([-1,0,1]) 


ax.set_xticklabels([r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$'], size=17) 
ax.set yticklabels([‘-1',°@','4+1'], size=17) 


ax.legend(loc='upper left’) 


ax.text(-0.25,0,'(@,@)') # x coord, y coord, 
ax.text(np.pi-9.25,0, r'$(\pi,@)$', size=15) 


ax.annotate( ‘Origin’, 
xy=(0, @), # where the arrow points to 
xytext=(1, -@.7), # Location of text 
arrowprops=dict(facecolor='blue’)); 


—t -n2 0 +n/2 +m 


图 4.26 
446 生成 网 格 、 水 平 线 和 垂直 线 


当 生 成 网 格 、 水 平 线 和 王 直 线 时 , 存在 多 种 操作 方法 可 实现 这 一 任务 。 其 中 , axhline() 
方法 用 于 生成 水 平 线 ; 此 外 ， 还 可 进一步 针对 颜色 和 透明 度 指 定 其 他 参数 ， 如 Alpha 和 
鼎 色 什 。 类 似 地 ，axvline0 方 法 则 通过 相关 参数 绘制 王 了 直线 ， 对 应 代码 如 图 4.27 所 示 。 

grid() 方 法 将 生成 绘图 网 格 。 具 体 而 言 ， 输 出 结果 中 的 浅 灰 线 使 得 绘图 结果 看 起 来 更 
加 和 舒适。 我 们 几乎 可 以 自 定 义 matplotlib FHI cK, (HARM RRA BAIR 
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: fig, ax = plt.subplots!() 
ax.plot(x, sine, color="red’, label='"Sine') 
ax.plot(x, cosine, color='#165181', label=‘Cosine’ ) 


ax.set_xlim(-3.5,3.5) 
ax.set ylim(- 1. Gi 2) 


ax.set xticks([-np.pi, -np.pi/2, 9, np.pi/2, np.pil) 
ax.set_yticks([-1,0,1]) 


ax.set_xticklabels([r'$-\pi$', r'$-\pi/2$', r'$0$", r'$+\pi/2$', r'$+\pi$b'], size=17) 
ax.set_yticklabels([‘*-1°,'@°,°+1'], size=17) 


ax.legend(loc=‘upper left’) 


soe ee a A 9) ) # x coord, y coord, 
ax.text(np.pi-0.2,0.05, r°$(\pi,0)$", size=15) 


ax.annotate('Origin', 
xy=(@, @), # where the arrow points to 
xytext=(1, -@.7), # Location of text 
arrowprops=dict(facecolor='blue')); 


.axhline(@, color="black’', alpha=@.9) #horizontal 
-axvline(@, color=‘black’, alpha=@.9) #vertica 
-grid(); 


图 4.27 
4.5 基于 seaborn #7 pandas 的 EDA 


探索 性 数据 分 析 EDA) 72 —-FRAHER TT R, HFR ERRET ICA, IK 
用 可 视 化 方法 予以 显示 。EDA fe PEAR. SRE SUH RHE ER CA, E 
变量 及 其 之 间 的 关系 ， 进 而 形成 某 种 假设 条 件 ， 以 供 后 续 构 建 预 测 模式 使 用 。 
4.5.1 seaborn Æ 


seaborn 库 可 以 生成 具有 吸引 力 的 ,信息 丰富 的 图 形 , 其 中 包括 Python 中 的 统计 信息 。 
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对 此 , matplotlib 常用 于 构建 seaborn 库 。 另 外 ,seaborn 库 还 可 与 Python 数据 科学 栈 集成 ， 
同时 文 持 NumPy、pandas， 以 及 SciPy 的 统计 例 程 和 统计 模型 。 


O xa. 
KF seaborn 及 其 特性 ,读者 可 访问 https://www.datasciencecentral.com/profiles/blogs/ 


opensource-pythonvisualization-libraries 以 了 解 更 多 内 容 。 


seaborn 库 的 导入 操作 如 下 。 


# standard import statement for seaborn 


import seaborn as sns 


45.2 ”执行 探索 性 数据 分 析 
当 执 行 探索 性 数据 分 析 时 ， 可 使 用 一 个 数据 集 ， 该 数据 集中 包 舍 了 美国 城市 中 房屋 
售 价 以 及 户型 等 信息 ， 我 们 将 把 该 数据 集 加 载 至 pandas DataFrame 中 ， 如 图 4.28 所 示 。 
housing = pd.read_csv('../data/house_train.csv' ) 


housing. shape 


(1460, 81) 


housing.info() 


<class ‘pandas.core.frame.DataFrame' > 
RangeIndex: 1460 entries, © to 1459 
Data columns (total 81 columns): 

Id 1460 non-null int64 
MSSubClass 1460 non-null int64 
MSZoning 1460 non-null object 


LotFrontage 1201 non-null float64 
LotArea 1469 non-null int64 
Street 1460 non-null object 
Alley 91 non-null object 
LotShape 1460 non-null object 
LandContour 1460 non-null object 
Utilities 1460 non-null object 
LotConfig 1460 non-null object 
LandSlope 1460 non-null object 
Neighborhood 1460 non-null object 
Conditionl 1460 non-null object 
Condition2 146@ non-null object 
BldgType 1460 non-null object 
HouseStyle 1460 non-null object 
OverallQual 1460 non-null int64 


图 4.28 
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图 4.28 中 的 代码 也 体现 了 数据 集 和 pandas DataFrame 间 的 加 载 方式 ， 可 以 看 到 ， 
DataFrame 中 包含 了 1460 个 观测 结果 以 及 81 列 数据 .其 中 ,每 一 列 数据 体现 了 DataFrame 
中 的 一 个 变量 。 此 处 并 不 打算 使 用 全 部 变量 ， 相 反 ， 我 们 仅 天 注 执行 探索 性 分 析 时 所 涉 
及 的 一 些 变 量 。 


4.5.3 核心 目标 


所 有 的 数据 分 析 都 必须 以 一 些 关键 问题 或 目标 为 指导 ， 在 开始 执行 数据 分 析 任务 之 
前 ， 我 们 的 头脑 中 须 建立 起 一 个 清晰 的 目标 。 作 为 示例 ， 以 下 内 容 显 示 了 数据 集 探索 性 
数据 分 析 过 程 中 的 主要 目标 。 

口 “理解 数据 集中 的 单一 变量 。 

口 “ 理 解数 据 集中 变量 与 房屋 售 价 之 间 的 关系 。 

只 有 在 深入 理解 了 数据 和 当前 问题 后 ， 方 可 得 到 有 意义 的 分 析 结 果 。 


454 ”变量 类 型 


整体 上 讲 ， 变 量 存 在 以 下 两 种 可 能 的 数据 类 型 
I AARRE. 
品类 别 变量 。 
数值 变量 表示 相关 变量 值 为 数字 ; 而 类 别 变量 则 意味 着 对 应 值 为 相关 分 类 , 如 图 4.29 
所 示 。 


Categorical 


图 4.29 


上 述 两 个 较 大 的 分 类 中 各 包含 了 两 个 子 分 类 。 对 于 数值 变量 ， 一 方面 ， 定 义 了 连续 
变量 ， 连 续 变量 理论 上 可 以 取 区 间 内 的 任何 值 。 另 一 方面 ， 离 散 数字 变量 可 表示 为 区 间 
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AR REE EE: 对 于 关 列 变量 ， 其 中 迹 关 了 两 种 尖 列 变量 尖 型 。 第 一 种 变量 定义 为 有 
序 变 量 ， 且 包含 了 对 应 类 列 的 目 然 顺序 。 例 如 ， 如 下 定义 了 一 个 quality kE, BEER 
分 类 对 应 十 低 夺 、 中 奈 、 优 奈 ， 签 于 该 分 类 中 包含 了 目 然 顺序 ， 因 而 可 得 到 一 个 有 序 变 
E. ERM ME, PREFIRE: 而 优质 则 胜 于 中 质 和 低 质 。 第 二 种 变量 为 名 义 
(Nominal) 关 别 变量 ， 契 指 关 别 变 量 个 包含 任何 顺序 。 

下 面 竹 但 数据 集中 的 数值 变量 示例 。 


LDL UL L L 


SalesPrice: 该 变量 表示 房屋 的 售 价 。 

LotArea: 该 变量 表示 房屋 面 积 。 

OverallQual: 该 变 量 表 示 整 体 材料 的 利用 率 。 

OverallCond: 该 变量 代表 房屋 的 整体 状况 。 

IstFirSF: 该 变量 表示 一 楼 的 面积 。 

2ndFirSF: 该 变量 表示 二 楼 的 面积 。 

BedroomAbvGr: ZERRE EEE 〈 不 包括 地 下 室 的 卧室 ) 。 

YearBuilt: 变量 表示 最 初 的 构建 日 期 (从 技术 上 讲 ， 这 不 是 一 个 数值 变量 ， 但 
是 我 们 将 使 用 它 来 生成 男 一 个 名 为 Age 的 变量 ) 。 


下 面 考查 数据 集中 与 类 别 变量 相关 的 一 些 示 例 。 


= 
E 
= 
E 
= 
E 
= 
后 


MSZoning: 该 变量 用 于 标识 销售 的 一 般 分 区 分 类 。 
LotShape: ZERIKA BNA. 

Neighborhood: 1%4¢8 #7N Ames JT EH A FE E. o 
CentralAir: 14E EKR PRA id KA. 

SaleCondition: (ARRAN ERE. 

MoSold: 该 变量 表示 出 售 月 份 (CMM) 。 

YrSold: 该 变量 表示 出 售 年 份 CYYYY) 。 


面 在 实际 分 析 数 据 时 ， 将 会 看 到 为 什么 这 些 变量 被 称 作 数值 变量 和 类 别 变量 。 


46 单独 分 析 变 量 


自 先 需要 定义 分 析 过 程 中 所 用 的 变量 名 ， 当 前 包含 了 一 个 数值 变量 列表 和 类 别 变 量 
列表 。 随 后 ， 将 重新 定义 房屋 的 DataFrame， 其 中 仅 包 舍 了 刚刚 定义 的 变量 。 接 下 来 ， 可 
使 用 shape 属性 查看 新 DataFrame 的 大 小 ， 如 图 4.30 所 示 。 

在 图 4.30 中 ， 可 以 看 到 DataFrame 的 尺寸 友 生 了 变化 ， 且 仅 包 售 15 列 。 
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: nmumerical_vars = ["SalePrice’, 
"YearBuilt', 
categorical vars = ['MSZoning', 


‘LotArea’, 


‘OverallQual', 
“2ndFlrsF , 
"Neighborhoad', 


1stFlrsF , 
‘LotShape’, 


: housing = housing[numerical_vars+tcategorical_vars] 


9]: housing. shape 


: (1460, 15) 


46.1 理解 主 变量 


'Overallcond', 
‘BedroomAbvGr "| 
'CentralAir', 


'SaleCondition', ‘MoSold', "YrSold'] 


下 面 介 绍 一 下 主 变 量 ， 即 房屋 的 SalePrice。 对 于 一 个 类 别 变量 ， 我 们 要 做 的 第 一 件 
事 就 是 了 解 其 描述 性 统计 数据 ， 如 图 4.31 Pras. 


In [10]: 


#descriptive statistics summary 


housing[ 'SalePrice' ].describe() 


Out[1@]: count 
mean 


std 


min 
25% 
50% 
75% 
max 


1469. 
180921. 
79442. 
34900. 
129975. 
163000. 
. 000000 
755000. 


214909 


888800 
195890 
59802883 
000000 
888800 
000090 


888000 


SalePrice, float64 


Name: 


dtype: 


图 4.31 


至 此 ， 我 们 已 了 解 到 主 变量 的 取 值 范围 。 在 图 431 中 ， 可 以 看 到 数据 集中 的 平均 房 
价 为 180000 美元 。 另 外 ， 标 准 偏 差 约 为 80000 美元 。 与 数据 集中 最 便宜 的 房子 对 应 的 最 
小 值 约 为 3$000 美元 ;与 数据 集中 最 昂 贯 的 房子 对 应 的 最 大 值 为 73$000 美元 。 


一 般 来 讲 ， 获 取 计 算数 值 变量 的 描述 性 统计 是 一 种 较 好 的 习惯 ， 进 而 了 解 该 变量 可 


取 的 数值 ， 以 及 该 变量 的 分 布 和 离散 状态 。 除 此 之 外 ， 还 需要 通过 变量 的 图 形 表达 进 一 
步 完善 从 数值 汇总 中 获取 的 信息 。 对 于 数值 变量 ， 一 种 典型 的 变量 可 视 化 理解 方式 是 柱 


状 图 。 当 显示 pandas Series 的 柱状 图 时 ， 可 使 用 hist 方法 ， 如 图 4.32 所 示 。 

从 图 4.32 中 可 以 看 出 , 房屋 的 价格 很 少 低 于 100000 $7, 且 大 多 数 房 屋 的 价格 集中 
在 100000 美元 一 200000 于 元。 此外， 图 中 仪 包 含 了 少量 的 、 价 格 过 融 的 观测 结果 。 也 束 
是 说 ， 很 省 有 超过 400000 美元 的 房屋 ， 且 图 中 的 分 布 结 朵 呈现 为 长 尾 状态 ， 这 一 后 可 通 
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过 Skewness 和 Kurtosis 数值 统计 得 到 确认 。 其 中 ， 偏 上 度 为 0 表示 正 态 分 布 ， 对 于 正 值 ， 
将 得 到 一 个 与 当前 显示 类 似 的 正 态 尾部 状态 。 相 应 地 ， 峰 度 则 表示 分 布 的 厚度 。 在 图 4.32 
中 ， 较 高 的 数值 主要 集中 在 100000 美元 一 200000 美元 一 一 据 此 ， 当 前 峰 度 为 6.5。 接 近 
正 态 分 布 的 变量 其 值 通 利 在 3 左右 。 


In [11]: housing['SalePrice'].hist(edgecolor="black', bins=20); 


0 100000 200000 300000 400000 500000 600000 700000 


#skewness and kurtosis 
print("Skewness: {:0.3f}".format(housing[ ‘SalePrice'].skew())) 
print("Kurtosis: {:0.3}".format(housing[ 'SalePrice'].kurt())) 


Skewness: 1.883 
Kurtosis: 6.536 


图 4.32 
462 ”数值 变量 


如 条 和 布 望 检测 数据 集中 的 全 部 变量 ， 可 以 非 营 方便 地 使 用 针对 pandas DataFrame 对 
月 获取 的 hist0 方 法 来 实现 。 对 此 ， 可 利用 现 有 的 数值 变量 列表 构建 房屋 DataFrame 的 于 
集 ， 同 时 ， 正 如 我 们 对 pandas Series 所 做 的 那样 ， 也 可 以 对 pandas DataFrame 执行 同样 
的 操作 。 因 此 ， 可 使 用 histO 方 法 并 设置 以 下 参数 : edgecolor 赋 子 为 黑色 ， 以 使 每 个 柱状 
图 案 之 间 的 直线 显示 为 黑色 ;柱状 图 中 的 bins 数 量 则 设置 为 15; figsize 设置 为 (14,5); layout 
设置 为 2 行 、4 列 。 图 4.33 共计 显示 了 8 个 柱状 图 。 

pandas 针对 数据 集中 8 个 数值 变量 生成 了 较 好 的 可 视 化 效果 ， 据 此 ， 我 们 可 以 达到 
KEWA HES., HRW TF. 


e {De 


In [13]: 


Out[13] : 


In [14]: 


L 


k e a bG 


E 


因此 ， 


housing[numerical vars].describe() 


SalePrice 
1460.000000 
180921.195890 
std 79442 502883 


count 


mean 


34900.000000 
加 129975.000000 
“% 163000.000000 
为 214000_000000 


Lothrea OverallQual OverallCond 


1460.000000 1460.000000 1460.000000 


10516.828082 
$961 264932 
1300.000000 
#553.500000 
9478.500000 

11601.500000 


6.099315 
1.382997 
1.000000 
5.000000 
6.000000 
f.Q00000 


5.575342 
1.112799 
1.000000 
5.000000 
5.000000 
6.000000 


YearBuilt 
1460.000000 
1971.267808 

30 202904 
1872 000000 
1954 000000 
1973.000000 
2000.000000 
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istFirSF 
1460 000000 
1162.626712 
386 587738 
334_000000 
882 000000 
1087 000000 
1391.250000 


2ndFirSF BedroomAbyGr 


1460.000000 
346.992466 
436 525436 

0.000000 
0.000000 
0.000000 
f 28.000000 


1460.000000 
2.566438 
0.815778 
0.000000 
2.000000 
3.000000 
3.000000 


155000.000000 215245.000000 10.000000 9.000000 2010.000000 4692.000000 2065.000000 8.000000 


housing[numerical vars].hist(edgecolor='black', bins=15, figsize=(14, 5), layout = (2,4)); 


lstFIrsF 2ndFlrsF BedroomAbvGr 


0 
0 5000010000050000200000 
YearBuilt 


1000 200 3000 4000 0 
OverallCond 


500 1000 1500 2000 4 6 B 
OverallQual SalePrice 


0 0 
0 200000 400000 600000 1900 1950 2000 


图 4.33 


从 1stFlrSF 中 可 以 看 到 ， 一 层 的 面积 分 布 状 态 回 右倾 笠 。 
屋 的 面积 基本 在 1000 平方 英 ROR 1200 平方 现 尺 左右 。 
在 2ndFlrSF 变量 中 ， 最 大 的 柱状 图 大 约 为 0， 表 明 大 多 数 房屋 均 不 包含 二 层 。 
大 多 数 房屋 均 配 置 了 3 lA) ihe 
在 LotArea 中 ， 柱 状 图 融 度 倾 射 ， 也 就 是 说 ， 和 面积 大 的 户型 较 少 。 
条 件 和 质量 评级 结果 大 约 为 $,， 这 说 明 大 部 分 房屋 的 评级 适中 〈 较 局 和 较 低 的 评 
级 较 少 ) 
“HY, YearBuilt 变量 实际 上 并 无 太 多 用 处 。 但 是 ， 我 们 可 以 以 此 构建 一 个 有 意 
义 的 变量 〈 出 售 时 房屋 的 使 用 时 间 ) 。 

需要 定义 新 的 变量 Age， 即 服务 出 售 年 份 减 去 其 建筑 年 份 。 


也 就 是 说 ， 大 多 数 房 


然后 ， 可 从 数值 


变量 中 移 除 YearBuilt 变量 ， 并 利用 数值 变量 列表 中 的 Age 变量 予以 替换 。 当 再 次 进行 绘 
HJ, Age 的 分 布 状态 如 图 4.34 所 示 。 


”图 中 用 的 单位 是 平方 英 斥 ， 书 中 单位 与 图 中 单位 保持 一 致 。 
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housing[ Age | = housing[ Yrsold ] - housing[ YearBulilt | 
numerical vars.remove( YearBuIlt ) 
numerical vars.append('Age') 


housing[numerical vars].hist(edgecolor='black', bins=15, figsize=(14, 5), layout = (?,4)); 


1stFirsF 2ndFirSF Age BedroomAbvGr 


1000 2000 3000 4000 0 500 1000 1500 2000 50 100 0 2 


4 6 B 
LotArea OverallCond OverallQual SalePrice 


oO 0 
O SOOOO1DD00DLS 00000000 5 200000 400000 600000 
图 4.34 


从 图 4.34 中 可 以 看 到 ， 包 含 较 大 柱状 图 的 Age 变量 位 于 0 处 ， 这 也 表明 ， 大 量 的 房 
屋 已 被 售 出 ， 且 大 约 400 套 新 房子 已 被 售 出 。 


46.3 ”类 别 变 量 


柱状 图 是 类 别 变 量 的 推荐 绘图 类 型 。 当 在 pandas 中 针对 类 列 变 量 绘制 柱状 图 时 ， 可 使 
用 pandas Series 对 象 SaleCondition， 计 算 value counts 并 于 随后 使 用 plotO 方 法 ， 如 图 4.35 
FAR o 


In [17]: housing['SaleCondition'].value_counts().plot(kind="bar', title='SaleCondition'); 


SaleCondition 


图 4.35 
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当 执 行 图 4.35 中 的 代码 行 时 ， 将 得 到 SaleCondition 变量 中 不 同类 别 的 计数 结果 。 
此 ， 大 多 数 房屋 在 Normal 条 件 下 即 被 出 售 ， 其 中 数量 约 为 1200 套 ; 少量 房屋 则 在 其 他 
条 件 下 被 出 售 。 

当 对 数据 集中 的 全 部 类 别 变 量 执 行 可 视 化 操作 时 ， 类 似 于 数值 变量 ， 并 不 存在 一 种 
方法 可 和 且 接 利用 pandas 对 其 进行 操作 。 对 此 ， 可 通过 之 前 所 学 知识 实现 这 一 任务 〈 参 见 
41 Ys 

因此 ， 可 利用 plt.subplot 函数 生成 一 个 绘制 窗口 和 一 个 轴 对 象 ， 即 2 行 4 列 的 网 格 ， 
共计 8 个 子 图 。 随 后 ， 可 将 figsize 设置 为 (14,6)。 接 下 来 ， 可 编写 一 个 循环 语句 ， 用 于 遍 
历 ax.flatten0) 对 象 中 每 个 子 图 的 各 个 类 别 变 量 

FETE, KH pandas Series 对 象 计算 数值 计数 结果 。 随 后 可 使 用 plotO 方 法 
并 将 kind 设置 为 bar。 这 里 ， 唯 一 的 调整 是 绘制 subplot I AA loop 变量 中 的 柱状 图 。 
后 ， 可 针对 子 图 调用 tight_layout， 以 实现 较 好 的 输出 效 来 ， 如 图 4.36 Pras. 


fig, ax = plt.subplots(2,4, figsize=(14,6)) 
for var, subplot in zip(categorical_vars, ax.flatten()): 
housing[var].value_counts().plot(kind='bar', ax=subplot, title=var) 


Ffig.tight_layout() 


MSZoning LotShape Neighborhood Centraléir 
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2 


SaleCondition 


图 4.36 


可 以 看 到 , weet Al 4.36 中 的 4 行 代 但 , 即 可 生成 相对 复 森 且 内 容 丰 量 的 可 视 化 效果 。 

为 了 更 好 地 理解 变量 和 SalePrice 之 则 的 关系 ， 可 编写 一 个 小 型 函数 ， 以 识 列 小 于 30 
个 数值 的 分 类 级 别 。 随 后 ， 可 通过 apply0 方 法 将 该 函数 应 用 于 pandas DataFrame 中 的 各 
行 。 接 下 来 ， 通 过 一 条 for 循环 语句 检测 并 人 怀 存 大 于 30 个 观测 结果 的 分 类 级 别 ， 如 图 4.37 
PIR o 
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def identify_cat_above3@(series): 
counts = series.value counts() 
return list(counts[counts>=30].index) 


In [20]: levels_to_keep = housing[categorical_vars].apply(identify_cat_above3®, axis=6@) 
levels_to_keep 


Out[2@]: MSZoning [RL, RM, FV] 
LotShape [Reg, IR1, IR2] 
Neighborhood [NAmes, CollgCr, OldTown, Edwards, Somerst, Gi... 


CentralAir LY, N] 
SaleCondition (Normal, Partial, Abnorml] 
MoSold [6, 7, Sy. 4, 8, 3, 20, 11, 9, 12, 1, 2] 
YrSold [2009, 2007, 2006, 2008, 20610] 
dtype: object 


In [21]: for var in categorical _vars: 
housing = housing.loc[housing[var].isin(levels_to_keep[var]) ] 


In [22]: housing.shape 


Out[22]: (1246, 16) 


图 4.37 


当 执 行 上 述 代码 时 ， 将 会 得 到 少量 的 观测 结果 ， 即 16 个 变量 的 1246 个 观测 结果 。 
下 面 再 次 查看 之 前 显示 的 可 视 化 结果 ， 如 图 4.38 所 示 。 


In [23]: | fig, ax = plt.subplots(2,4, figsize-(14,6)) 
for var, subplot in zip(categorical_vars, ax.flatten()): 
housing[var].value_counts().plot(kind="bar', ax=subplot, title=var) 


fig.tight_layout() 


MSZoning LotShape | Neighborhood CentralAir 


SaleCondition 


° 50° Python 数据 分 析 师 修炼 之 道 
可 以 看 出 ， 图 4.38 中 并 未 包含 小 于 30 个 观测 结果 的 分 类 级 别 。 当 前 ，MSZoning 变 
量 、LotShape 变量 、SaleCondition 变量 均 包 含 了 3 个 分 类 级 别 。 


4.7 变量 间 的 关系 


不 同 变量 间 的 关系 可 通过 matplotlib 的 命名 空间 图 实现 可 视 化 效果 。 其 中 ， 散 点 图 党 
用 于 可 视 化 两 个 数值 变量 间 的 关系 ， 箱 形 图 用 于 数值 变量 和 类 别 变量 间 的 可 视 化 关系 
复杂 条 件 图 则 用 于 多 个 变量 的 可 视 化 效果 。 
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当 利 用 pandas EROS ASA, EH m LEE a4 ele). FER AAA, 
可 及 用 scatterO) 方 法 并 传递 X 和 y 全， 如 图 4.39 Ara. 


In [24]: housing.plot.scatter(x='1stFirSF', y='SalePrice'); 
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图 4.39 
从 图 4.39 中 可 以 看 出 ，1stFlrSF 和 SalePrice 之 间 具 有 正 关 系 。 因 此 ， 变 量 1stFlrSF 
绘制 于 X 轴 上 ， 而 变量 SalePrice 绘制 于 y 轴 上 。 图 中 可 清晰 地 看 到 ， 两 个 变量 间 存 在 正 
KA 变量 1stFlrSF 越 大 ， 则 房屋 的 销售 价格 就 越 高 。 
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seaborn 提供 了 一 个 名 为 jointplot 的 函数 ， 除 了 能 够 生产 散 点 图 之 外 ， 该 函数 还 可 生 
成 边际 图 ， 如 图 4.40 所 示 。 


In [25]: | sns.jointplot(x='1stFlrSF', y="SalePrice', data=housing, joint_kws={"s": 10}); 
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图 4.40 


在 图 4.40 所 示 的 边际 图 中 ， 可 以 看 到 变量 在 x BAA y 轴 上 的 分 布 状态 。 据 些 ， 不 仪 
可 以 伍 看 两 个 变量 则 的 天 系 ， 还 可 进一步 观察 到 变量 各 目的 分 布 方式 。 

如 条 打算 同时 显示 多 幅 表 点 图 ， 可 创建 一 个 艇 点 图 算 阵 ， 利 用 pairplot 函数 ，seaborn 
可 方便 地 实现 这 一 功能 。 对 此 ， 可 传递 一 个 包含 数值 变量 的 DataFrame， 对 应 结果 即 Aa 
AEREE, Ql 4.41 Ara. 

其 中 , 每 幅 散 点 图 均 体 现 了 DataFrame 中 变量 间 的 相互 关系 。 建 议 同时 使 用 不 超过 4 
个 或 个 变量 ， 人 否则 ， 可 视 化 效果 将 难以 得 到 完美 地 展示 。 

此 处 及 用 了 4 个 变量 ， 其 中 之 一 是 房屋 的 SalePrice。 不 难 及 现 ，SalePrice 和 男 一 个 
变量 间 存 在 正 天 系 。 随 后 ，LotArea 显示 了 OverallQual 和 SalePrice 则 的 关系 。 这 一 关系 
仍 呈 现 为 正 关 系 ， 但 不 如 OverallCond 那样 明显 。 
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In [26]: sns.pairplot(housing[numerical vars[:4]], plot kws={"s": 16}); 
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图 4.41 


4.42 显示 了 多 个 数值 变量 与 SalePrice 之 间 的 关系 。 

通过 观察 可 知 ，SalePrice 与 lstFITSF 和 2ndFlrSF 之 则 具有 较为 明显 的 正 关 系 。 此 外 ， 
Age 和 SalePrice 变量 则 其 有 非 线 性 的 负 天 系 。 具 体 来 襄 ， 随 看 Age 增加 ，SalePrice 呈现 
下 降 趋 势 ， 因 而 这 一 天 系 表 示 为 曲线 而 非 且 线 。 
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In [27]: sns.pairplot(housing[[‘SalePrice’ ]+numerical_vars[4:]], plot_kws={"s": 10}); 
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47.2 ”相形 图 


这 里 将 考查 数据 集中 的 类 别 变量 和 房屋 SalePrice 之 间 的 关系 。 对 此 ， 箱 形 图 (也 称 
ARD 则 是 但 看 数值 和 类 别 变 量 关 系 的 一 种 标准 可 视 化 方式 。 箱 形 图 通过 其 四 分 位 数 
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表述 一 组 数字 。 男 外 ， 箱 形 图 也 包含 垩 下方 回 上 扩展 的 耳 线 ， 表 示 上 、 下 四 分 位 数 之 外 
的 变化 。 有 其 中 ， 茶 些 异 音信 可 以 绘制 为 单独 的 点 。 箱 形 图 是 非 参 数 化 的 ， 并 旺 示 了 统计 
尽 体 样本 的 变化 ， 而 没有 对 潜在 的 统计 分 布 做 出 任何 假设 。 

下 面 通 过 箱 形 图 考查 alePrice 与 其 他 类 别 变量 之 间 的 关系 ， 如 图 4.43 所 示 。 


: conditional plot = sns.FacetGrid(housing, col="Yrsold", row="Salecondition", hue= CentralAir ) 
conditional plot.map(plt.scatter, "Age", “SalePrice").add_legend(); 
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图 4.43 


这 里 显示 了 变量 CentralAir (A x Hi) 和 变量 SalePrice (AT y HD) WA. A 
难 友 现 ， 对 于 未 配置 的 CentralAir 房屋 ，SalePrice 较 低 ， 房 价 的 分 布 也 低 于 配置 了 CentralAir 
的 房屋 。 

除 此 之 外 ， 类 似 于 敌 点 图 ， 还 可 以 在 一 次 可 视 化 操作 中 展示 多 个 御 形 图 。 根 据 之 前 
的 多 子 图 技术 ， 可 通 历 每 幅 子 图 ， 并 通过 Python 生成 类 别 变 量 和 SalePrice 间 的 可 视 化 结 
果 ， 如 图 4.44 ras. 

通过 观察 可 知 ， 变 量 MSZoning 在 类 别 中 的 分 布 有 所 人 不同; RM 分 类 包含 了 较 低 售 
价 的 分 布 状态 ; 在 Neighborhood 变量 中 ， 可 以 看 到 ， 不 同 的 社区 也 会 存在 不 同 的 分 布 

4.45 显示 了 Neighborhood 和 SalePrice 变量 之 间 的 关系 。 
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fig, ax = plt.subplots(3,3, figsize=(14,9)) 
for var, subplot in zip{categorical vars, ax.flatten()): 
sns.boxplot(x=var, y='SalePrice’, datashousing, ax=subplot) 


fig.tight_layout() 
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图 4.44 


In [34]: fig, ax = plt.subplots(figsize=(14,4)) 
sns.boxplot(x='Neighborhood', y="SalePrice’, data=housing, ax=ax); 
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图 4.45 


可 以 看 到 ， 不 同 的 社区 包含 了 不 同 的 价格 分 布 状态 。 对 此 ， 一 种 较 好 的 方法 十 按照 
价格 的 高 低 以 排序 方式 执行 可 视 化 操作 。 这 可 通过 参数 order=sorted 方便 地 子 以 实现 。 
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图 4.46 显示 了 根据 中 国 价 格 排序 Neighborhood Ja Hy 2a. 


:| fig, ax = plt.subplots(Tigsize=(14,4)) 
sns.boxplot(x="Neighborhood’, y='SalePrice’, data=housing, order=sorted nb, ax=ax) 
plt.xticks(rotation='vertical'); 


图 4.46 


在 根据 中 间 价 格 对 社区 进行 排 友 后， 可 以 看 到 不 同 社区 中 价格 分 布 状态 的 可 视 化 结 
果 。 在 最 便宜 的 社区 中 ， 房 屋 的 中 间 价 格 约 为 100000 美元 ; 而 在 最 贵 的 社区 中 ， 房 屋 的 
中 间 价 格 在 300000 美元 左右 。 

可 以 看 到 ， 对 于 某 些 社区 来 说 ， 价 格 之 间 的 差别 很 小 。 对 于 较 小 的 箱 形 网 ， 这 表明 
全 部 价格 间 彼 此 接近 ;而 对 于 茶 些 较 大 的 箱 形 图 ， 价 格 分 布 则 存在 较 大 的 俩 兰 。 因 此 ， 
根据 视觉 显示 效果 ， 可 以 查看 到 大 量 的 信息 。 
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条 件 图 相对 复杂 ,并 可 于 其 中 对 一 个 变量 进行 条 件 设 置 。 例如, 如果 对 Neighborhood 
进行 条 件 设置 ， 则 可 利用 FacetGrid 函数 生成 条 件 图 。 因 此 ,我 们 将 对 Neighborhood 设置 
条 件 ， 并 于 随后 生成 OverallQual 和 SalePrice 变量 间 的 散 点 图 ， 如 图 4.47 所 示 。 

此 处 ， 在 可 视 化 结果 中 的 每 幅 散 点 图 均 在 各 个 社区 上 设置 了 条 件 。 如 果 全 部 社区 中 
两 个 变量 间 具 有 正 关 系 ， 那 么 就 可 以 说 ， 观 测 到 的 关系 适用 于 每 个 社区 。 

如 果 打 算 可 视 化 多 个 变量 ， 可 通过 FacetGrid 方法 生成 条 件 图 ， 并 传递 类 别 变量 作为 
行 和 列 ， 同 时 辅 以 额外 的 类 别 变量 并 通过 不 同 的 颜色 显示 散 点 图 的 绘制 点 。 根 据 这 一 新 
的 特性 ， 可 对 Age 和 SalePrice 加 的 关系 执行 可 视 化 操作 ， 但 此 处 对 房屋 的 销售 年 份 和 
SaleCondition 变量 设置 条 件 ， 对 应 结果 如 图 4.48 Ara. 
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In [37]: | conditional plot = sns.FacetGrid(housing, col="Neighborhood", col wrap=4) 
conditional plot.map(plt.scatter, “OverallQual", “SalePrice"); 
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图 4.47 


其 中 ， 每 一 列 对 应 于 每 一 年 〈2006 一 2010 年 ) ; 三 行 则 分 别 对 应 于 Normal 条 件 、 
Abnormal 条 件 和 Partial 条 件 。 我 们 还 发 现 ，Age 与 SalePrice 之 则 的 负 关 系 在 Normal 行 
的 每 一 个 子 分 组 中 部 成 立 ， 并 且 随 看 年 龄 的 增长 ， 它 趋 于 下 降 势 态 。 深 色 点 对 应 的 是 那 
HOV A BARS i] CCentralAir) 的 房子 ， 因 为 大 部 分 的 深 色 点 位 于 50 一 100， 因 而 可 
以 判断 出 它们 是 一 些 老 旧 的 房子 。 从 图 4.48 中 还 可 以 看 到 ，“SaleCondition W Partial” 
这 一 闫 观测 结束 较 少 ; 而 且 ， 对 于 大 多 数 观测 结 未 来 说 ， 房 屋 的 年 龄 为 0。 
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conditional plot = sns.FacetGrid(housing, col="Yrsold", row="SaleCondition", hue='CentralAir') 
conditional plot.map(plt.scatter, “Age”, “SalePrice”).add legend(); 
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图 4.48 


当前 示例 说明 ， 我 们 可 以 很 方便 地 生成 复 森 的 可 视 化 结 末 ， 以 及 如 何 从 可 视 化 结 来 
中 获得 有 价值 的 信息 。 作 为 数据 分 机 人 员 ， 我 们 不 仅 应 该 答 斌 如何 生 成 这 些 可 视 化 结案 ， 
还 应 该 从 中 获取 一 些 有 价值 的 见解 。 


48 本 章 小 结 


本 章 讨 论 了 matplotlib 及 其 工作 方式 。 除 此 之 外 ,我 们 还 学 习 了 面向 对 象 接 口 和 pyplot 
接口 之 则 的 差异 。 男 外 , 本 章 还 介绍 了 一 些 第 见 的 可 视 化 操作 , 并 探讨 了 如 何 通 过 seaborm 
和 pandas 执行 可 视 化 操作 。 最 后 ， 本 章 还 曾 述 了 变量 间 关 系 的 可 视 化 方式 ， 并 在 真实 的 
数据 集 上 执行 了 探索 性 数据 分 析 。 

第 $ 章 将 考查 如 何 利用 Python 执行 统计 计算 。 


第 5 Python 统计 计算 


本 章 主要 讨论 Python 科学 计算 库 Scipy， 这 可 视 为 一 个 Python 的 科学 计算 工具 箱 。 
另外 ， 本 章 还 将 讨论 统计 学 子 包 ， 并 以 此 执行 多 种 统计 计算 ， 包 括 概率 计算 、 概 率 分 布 
以 及 置信 区 间 。 最 后 ， 我 们 还 将 在 真实 的 数据 集 上 执行 假设 测试 

本 章 主要 涉及 以 下 主题 。 


LDL L L 


假设 测试 。 
执行 统计 测试 。 


5.1 SciPy 简介 


SciPy 是 Python 中 执行 科学 计算 的 一 种 工具 ， 同 时 也 是 一 种 基于 Python 生态 环境 的 
开源 软件 ， 涉 及 数学 、 科 学 计算 和 工程 计算 。SciPy 针对 第 见 的 科学 计算 提供 了 各 种 工具 
箱 。 对 于 科学 计算 或 工程 领域 ， 相 关 工 具 可 能 位 于 SciPy 的 子 包 中 。SciPy 的 子 包 主要 包 
括 以 下 内 容 。 
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scipy.io: 该 数据 包 提 供 了 文件 的 输入 /输出 处 理工 具 。 
scipy.special: 人 议 数 据 包 提 供 了 特定 函数 的 处 理工 具 。 
scipy.linalg: 度数 据 包 提供 了 线性 代数 处 理工 具 。 
scipy.fftpack: 该 数据 包 提 供 了 快速 傅 里 时 转换 处 理工 具 。 
scipy.stats: 该 数据 包 提 供 了 统计 和 随机 数字 的 处 理工 具 。 
scipy.interpolate: 该 数据 包 捉 供 了 插值 处 理工 具 。 
scipy.integrate: 访 数 据 包 提供 了 数 信 积分 处 理工 具 。 
scipy.signal: 充 数 据 包 提供 了 信号 处 理工 具 。 
scipy.ndimage: 该 数据 包 捉 供 了 图 像 处 理工 具 。 


统计 子 包 


通过 导入 stats 模块 ， 可 加 载 或 使 用 统计 子 包 ， 议 子 包 包 侣 了 大 量 的 概率 分 布 以 及 不 
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断 增 长 的 统计 函数 库 。 由 于 统计 是 数据 科学 中 的 核心 内 容 ， 因 而 此 关 软 件 包 针对 数据 分 
析 和 数据 科学 来 说 ， 可 视 为 一 种 较 好 的 计算 工具 。 在 本 章 的 讲解 过 程 中 ， 将 会 学 习 到 如 
何 利 用 Python 执行 一 些 较为 前 见 的 统计 计算 ， 并 利用 这 些 统 计 子 包 进 一 步 理 解 相关 的 数 
据 集 《其 中 包含 了 学 生 人 饮 调 信息 ) 。 
按照 下 列 顺 序 ， 本 章 将 利用 Scipy 中 的 stats 子 包 执行 一 些 常 见 的 统计 计算 。 
(1) 引入 数据 集 。 
(2) 计算 置信 和 区间。 
(3) 执行 概率 计算 。 
下 面 在 Jupyter Notebook 中 考研 学生 饮酒 量 调 全 项目， 该 项 目 与 学 生 的 饮酒 行为 相 
天 。 在 该 项 目 中 ， 所 用 的 数据 集 包 含 了 来 日 两 所 公立 学 校 的 学 生 信息 ， 访 数据 集 源 日 真 
实数 据 ， 目 在 研究 学 生 的 饮酒 行为 与 学 业 成 绩 之 加 的 关系 。 此 处 所 使 用 的 数据 集 来 日 以 
下 两 个 渠道 : 学 校 的 调 碍 报告 、 新 生 所 回答 的 问 疮 。 
该 数据 集中 涵闸 了 30 多 个 变量 ， 这 将 有 助 于 提高 对 问题 的 分 析 能 力 。 下 列 内 容 显 示 
了 该 数据 集中 的 全 部 变量 。 
D school: 该 变量 表示 学 生 的 学 校 〈( 二 元 变量 : Gabriel Pereira 表示 'GP'; Mousinho 
da Silveira RMS’ 。 
sex: 该 变量 表示 学 生 的 性 别 〈 二 元 变量 : FRAN le; (MRA TE) 。 
age: 该 变量 表示 学 生 的 年 龄 〈 数 全 变量 : 位 于 1$ 一 22) 。 
address: 访 杰 量 表示 学 生 的 冢 硅 住 址 〈 二 元 变量 : UD' 表 示 城 市 ， RR' 表 示 乡 村 ) 。 
famsize: 该 变量 表示 家 硅 成 员 数 〈 二 元 变量 :; LE3' 表 示 小 于 或 等 于 3 A; 'GT3' 
PPAT 3A) . 
D Pstatus: RRNA TERA (ue: TRA SS TE; ARRE 
独居 住 〉。 
D Medu: 该 变量 表示 母 杀 受 教育 程度 〈 数 值 变量 : 0 表示 未 接受 过 任何 教育 ; 1 
表示 初等 教育 ;，2 表示 $ 年 级 一 9 年 级 ; 3 表示 中 等 教育 ，4 表示 局 等 教育 ) o 
D Fedu: 该 变量 表示 父亲 受 教育 程度 〈 数 值 变量 : 0 表示 未 接受 过 任何 教育 ; 1 表 
示 初 等 教育 ，2 表示 5 年 级 一 9 年 级 ; 3 表示 中 等 教育 ，4 表示 高 等 教育 ) o 
D Mjob: 该 变量 表示 母 杀 有 的 工作 状态 (nominal: 如 'teacher'、'health'、'services'、 
'at home'、'other ) 。 
D Fjob: 访 变 量 录 示人 父亲 的 工作 状态 (nominal: 如 'teacher ‘health’, 'services', 
'at home', ‘other') 。 
LJ reason: 该 杰 量 表示 选取 学 校 的 原因 (nominal: 如 home'、'Teputation'、 ‘course’, 
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L 
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other) 

guardian: 该 变量 表示 学 生 的 监护 人 (nominal: 包括 'mother'、'father'、'other') 。 
traveltime: 该 变量 表示 住址 距离 和 学校 需要 的 时 间 (数值 变量 : 1 表示 小 于 15 分 
钟 ，2 表示 15~30 分 钟 ，3 表示 30 分 钟 一 1 小 时 ; 4 表示 大 于 1 小时) 。 
studytime: 该 变量 表示 每 周 的 学 习 时 间 (数值 变量 : 1 表示 小 于 2 小 时 ; 2 表示 
2~5 小 时 ; 3 表示 $ 一 10 小 时 ; 4 表示 大 于 10 小 时 ) 。 

failures: 该 变量 表示 挂 读 数 〈 数 全 变量 : 1 万 0<3 或 4 次 ) 。 

schoolsup: 该 变 量 表 示 是 人 否 接 受 额外 的 教育 文 持 (二 元 变量 : yes 或 n0) 。 
famsup: 该 变 量 表示 是 否 包 含 家 教 ( 二 元 变量 : yes Ek no) 。 

paid: 该 变量 表示 学 科 (Math 或 Portuguese) 中 是 否 包 含 人 额外 的 付费 课程 〈 二 元 
变量 : yes 或 no) 。 

activities: 该 变量 表示 课外 活动 〈 二 元 变量 : yes 或 n0) 。 

nursery: 该 变量 表示 是 否 上 过 幼儿 园 〈 二 元 变量 : yes 或 no) 。 

higher: 该 变量 表示 是 任 打算 接受 局 等 教育 (二 元 变量 : yes Ek no) 。 

internet: 该 变量 表示 家 中 是 人 耕 可 访问 互联 网 (二 元 变量 : yes Bk no) 。 
romantic: 该 变量 表示 恋爱 关系 状况 〈 二 元 变量 : yes Kno) 。 

famrel: ZE ERRER RAN (BAE: 1 一 9， 分 别 代表 较 关 一 较 好 ) 。 
freetime: 该 变量 表示 诛 余 时 间 〈 数 值 变量 : 1 一 9， 分 别 代 表 较 少 一 较 多 ) 。 
goout: 该 变量 表示 与 朋友 的 外 出 时 则 (数值 变量 : 1 一 9, 分 别 代 表 较 少 一 较 多 ) 。 
Dale: 该 变量 表示 工作 日 的 饮酒 量 〈 数 全 变量 : 1~5, AIR BUK~ Rie) 。 
Wale: ZERRAREN AE BUSE: 1 一 595， 分 别 代表 较 低 一 较 遍 ) 。 
health: 该 变量 表示 当前 健康 状况 《数值 变量 : 1 一 5， 分 别 代 表 较 兰 一 较 好 ) 。 
absences: 访谈 量 表示 缺 课 状况 (数值 变量 : 0 一 93 ) 。 


年 级 与 课程 科目 的 关系 如 下 。 


E 
E 
E 


E 
E 
E 


Gl: 代表 第 一 学 期 成 绩 〈 数 人 变量 : 0 一 20) 。 
G2: 代表 第 二 学 期 成 绩 〈 数 值 变 量 : 0 一 20) 。 
G3: 代表 期 末 考 试 成 绩 〈 数 值 变量 : 0 一 20， 同 时 也 是 输出 结果 ) o 


本 节 主 要 关注 以 下 3 个 变量 。 


acl: 从 当前 数据 中 定义 该 变量 ， 以 存储 饮酒 消耗 量 。 
G3: 该 变量 用 于 存储 课程 的 期 末 考 斌 成绩。 
gender: 该 变量 用 于 存储 学 生 的 性 别 。 


下 面 加 载 数 据 集 ， 如 图 5.1 Ara. 
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: student .head( ) 


school sex age address famsize Pstatus Medu Fedu 


U GT3 
GT3 
LE3 


5 rows x 33 columns 


A 


图 5.1 


4 
1 
1 
2 


3 


Mjob 
at_home 
at_home 
at_home 

health 


other 


Fjob ... famrel freetime goout Dalc Wal 
teacher .. 


other .. 


1 
1 
other... : 2 
1 


services ... 


other... 1 


自 先 设置 一 个 酒精 消耗 量变 量 ， 并 于 其 中 定义 一 个 名 为 alcohol index 的 中 国 变 量 ， 
表示 学 生 饮 酒量 《平时 和 周末 ) SCE, SR Ata. 


student. rename (columns={'sex':'gender'}, 


student['alcohol index'] 


# Alcohol consumption level 
studenti acl] = student| “alcohol index’ | = 


student['acl'] = student['acl'|].map({True: 


随后 通过 alcohol index 变量 将 学 


inplace=True) 
(5*student["'Dalc'] + 2*student['Walc'])/7 


= 2 
‘Low, False: "High" }) 


分 为 几 组 。 如 果 alcohol index 小 于 或 等 于 2, 1% 


组 的 酒精 消耗 量 较 低 ， 如 果 alcohol index 大 于 2， 则 该 组 酒精 消耗 量 较 高 。 


5.1.2 ”置信 区 间 


本 节 将 首先 计算 置信 区 间 。 其 中 ， 要 计算 置信 区 间 的 第 一 个 变量 是 期 末 成 绩 和 我 
们 感 兴趣 的 统计 结果 ， 也 就 是 均值 。 此 处 查看 数据 集中 的 sample_size， 且 包含 了 649 个 
观测 结果 。 考 虑 到 采样 大 小 大 于 30， 因 而 可 通过 中 心 极 限定 理 计算 置信 区 间 ， 如 图 5.2 


所 示 。 


In [7]: sample size 


student. shape|[ @ | 


print(sample_ size) 


649 


图 5.2 


Pac, FYI IEA aA EPR Tet WET Ee Be Xa). MLC, Min te BILA F 3 


个 数值 。 
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2 ”变量 的 采样 均值 。 

D 公式 的 标准 误差 。 

O ”置信 和 度 。 

当前 已 知晓 如 何 计 算 采 样 均值 ， 如 图 5.3 所 示 。 可 以 看 出 ， 期 末 成 绩 对 应 的 变量 为 
G3， 其 输出 结果 为 11.906009244992296 。 


In [8]: sample mean grade = student[ 'G3'].mean() 
Sample mean_grade 


Out[8]: 11.906009244992296 


图 5.3 


在 图 5.4 F, DWBA RR BAMA, Sit Raikes. BI, 我 
们 得 到 了 上 所 需 的 前 两 个 数字 。 当 计算 置信 区 国 时 ， 还 将 使 用 到 stats 子 包 中 的 norm 对 象 。 
norm 对 和 象 定 义 了 一 个 interval0 方 法 ， 并 接收 3 个 输入 数据 ， 即 我 们 所 需要 的 3 个 数值 。 


pM In [13]: std error grades = student['G3'].std()/sqrt(sample size) 


In [14]: stats.norm.interval(9.95, loc=sample mean grade, scale=std error grades) 


Out| 14]: (11.65745768566587, 12.154560804318722) 


图 5.4 


其 中 ， 第 一 个 数值 为 当前 区 间 的 置信 上 度 ， 即 0.95. loc 参数 表示 变量 的 sample mean; 
scale 参数 表示 了 刚刚 计算 的 std_error。 可 以 看 到 ， 针 对 期 末 成 绩 的 均 伍 ，95$% 的 置信 区 间 
位 于 11.6$5745$768566587 一 12.1$4$60804318722 。 现 在 我 们 知道 了 如 何 计算 均值 、 标 准 误 
差 和 范 数 的 置信 区 则 ， 下 面 考查 一 个 例子 ， 看 看 如 何 计算 一 个 比例 的 置信 区 间 。 

这 里 将 使 用 刚刚 创建 的 变量 ， 即 酒精 的 消费 水 平 ， 并 但 看 酒精 消费 水 平 较 高 的 学 生 
比例 的 置信 区 间 。 计 算 过 程 也 较为 类 似 ， 也 就 是 说 ， 需 要 使 用 到 以 下 3 个 数字 。 

中 ”样本 比例 。 

D 样本 标准 偏差 。 

O ”置信 和 度 。 

针对 现 有 比例 ， 标 准 误差 的 计算 公式 为 


op. [POD 
n 


其 中 ， 广 表示 为 样本 比例 。 下 面 考查 酒精 消费 较 高 的 学 生 的 样本 比例 。 通 过 图 5.5 
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可 以 看 到 ， 该 值 约 为 0.255778。 


In [11]: | student['acl'|.value counts(normalize=True) 


Out[11]: Low Q@.744222 
High 0.255778 
Name: acl, dtype: float64 


图 5.5 
HHF high prop 变量 ， 下 列 代码 将 使 用 该 公式 计算 标准 误 震 和 置信 区 上 间 。 
high prop = student['acl'].value counts (normalize=True) ['High"] 


std Error prep — sqrte{high prop*(1 high prep) /sample Size) 


但 这 一 次 ， 将 针对 学 生 比 例 计 算 98% 的 置信 区 间 (在 酒精 消费 较 高 的 人 群 中 ) ， 如 
图 5.6 所 示 。 


In [13]: stats.norm.interval(9.98, loc=high prop, scale=std_error_prop) 


Out[13]: (@.21593666225148048, 0.2956195781183193 ) 


R] 5.6 


输出 值 为 0.21593666225148048 一 0.2956195781183193。 因 此 ， 对 于 当前 学 生 比 例 ， 
0.25 似乎 是 一 个 较 好 的 猜测 值 。 
记 住 ， 这 些 仪 是 样本 中 的 计算 ; 同时 ， 我 们 使 用 推论 统计 对 相关 人 和 群 进行 判断 。 


5.1.3 概率 计算 


假设 总 体 概 率 的 对 应 值 为 0.25， 下 面 通过 该 值 进行 统计 计算 。 

stats 数据 包 中 存在 多 种 概率 分 布 ， 进 而 可 据 此 进行 模拟 、 计 算 随 机 变量 并 执行 概率 
计算 。 下 面 考 得 相关 示例 并 对 茶 些 问题 子 以 解答 。 

假设 发 现 一 名 酒精 消费 水 平 较 高 的 学 生 的 概率 是 0.25， 如 果 我 们 有 一 个 10 人 的 班级 ， 
那么 ， 发 现 5 名 酒精 消费 水 平 较 融 的 学 生 的 概率 是 多 少 ? 

对 此 ， 可 通过 二 项 分 布 计算 这 一 概率 。 男 外 ，stats 数据 包 中 定义 了 binom WR, 
中 ， 定 义 了 一 个 名 为 概率 质量 函数 的 方法 ， 即 pmf， 我 们 需要 针对 二 项 分 布 提供 pmf 所 
需 的 参数 。 当 前 ， 我 们 关注 的 是 在 一 组 10 名 学 生 中 计算 5 名 酒精 消费 水 平 较 高 的 学 生 的 
概率 ， 旦 总 体 概率 是 0.25。 具 体 的 计算 过 程 和 概率 结果 如 图 5.7 所 示 。 
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图 5.7 


可 以 看 到 ， 当 前 事件 的 概率 为 0.058399200439453194。 当 然 ， 也 可 同时 计算 多 个 概 
率 。 在 图 5.8 中 ， 一 方面 ， 获 取 特 定 学 生 数 量 的 概率 位 于 X 轴 上 ， 而 柱状 图 则 表示 在 10 
名 学 生 组 成 的 班级 中 ， 获 取 酒 精 消 费 水 平 较 遍 的 学 生 的 概率 ; 另 一 方面 ， 一 般 难 以 找到 
这 样 的 班级 ， 其 全 部 学 生 的 酒精 消费 水 平均 较 蜗 。 男 外 ， 在 图 5.8 中 ， 还 可 合 看 概率 质量 
函数 一 侧 的 累积 分 布 函 数 。 

In [15]: | def plot probs n(n): 
fig, ax = plt.subplots(1,2, figsize = (14,4)) 
ax[@].bar(left=arange(n+1), height=stats.binom.pmf(k=arange(n+1), n=n, p=@.25)) 
ax[@].set_xticks(arange(n+1) ) 
ax[@].set_title('Probability mass function’) 
ax[1].plot(stats.binom.cdf(k=range(n+1), n=n, p=6.25)) 


ax[1].set_xticks(arange(n+1)) 
ax[1].set_title('Cumulative distribution function’) 


: plot probs n(16) 


Probability mass function Cumulative distribution function 


图 5.8 
因此 ， 可 使 用 binom 分 布 中 的 cdfO 方 法 计算 紫 积 分 布 图 数 。 


5.2 假设 测试 


本 节 将 执行 假设 测试 ， 以 回答 “饮酒 量 是 否 会 对 学 生 的 成 绩 带 来 影响 ”这 一 类 问题 。 
本 节 主 要 涉及 以 下 主题 

2 FREINER. 

口 ” 对 总 体 方差 的 相等 性 进行 测试 。 

Do ”对 总 体 均值 的 相等 性 进行 1{ 测 试 。 
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零 假 议 。 


in, 
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随后 ， 我 们 将 根据 所 得 结果 回答 上 述 问题 。 对 此 ， 将 采用 Jupyter Notebook 快速 浏览 
一 下 相关 步 又 ， 这 也 是 采用 假设 测试 回答 某 个 问题 时 的 常见 作法 ， 具 体 如 下 。 

C1) 此 处 将 建立 两 个 相互 竞争 的 假设 ， 即 堆 假 设 和 备 择 假设 (alternative hypothesis) 。 
所 回 泡 的 问题 类 型 决定 了 具体 采用 哪 一 种 假设 。 

(2) 这 里 将 提前 设置 一 个 显著 性 水 平 (significance level) ， 称 作 Alpha。 通 常 ， 研 究 
人 员 或 数据 分 析 师 一 般 会 选取 5% 或 0.05; 其 他 常见 的 选择 值 还 包括 0.01 Bk 0.1 CRE 10% ) 。 
(3) 在 p 值 中 计算 测试 统计 结果 ， 并 于 随后 将 这 一 p (45 Alpha 值 进 行 比 较 。 

(4) 对 于 是 否 采用 零 假 设 ， 可 根据 p 值 和 显著 性 水 平 的 比较 结果 ， 选 择 拒绝 或 接受 


(5) 最终， 在 对 应 结 示 与 最 初 问 题 之 间 ， 需 要 给 出 一 个 总 体 的 络 论 。 


53 执行 统计 测试 


在 进行 统计 测试 之 前 ， 下 面 诈 先 考 但 一 些 统计 函数 ， 进 而 可 通过 scipy 数据 包 进 行 测 


其 体 如 下 。 

[ç kurtosistest(a[, axis, nan_policy]): 该 数据 包 用 于 测试 数据 集 是 否 包含 正太 蜂 度 。 

[ç normaltest(a[, axis, nan_policy]): 充 数 据 包 用 于 测试 样本 是 个 不 同 于 正太 分 布 。 

Q skewtest(a[, axis, nan_policy]): 该 数据 包 用 于 测试 冬 度 是 合 不 同 于 正 态 分 布 。 

Qo pearsonr(x, y): 该 数据 包 用 于 计算 皮尔 森 相 天 系数 ， 以 及 非 相 天 测试 的 p 值 。 

L] ttest_lsamp(a, popmean[, axis, nan_policy]): 该 数据 包 用 于 计算 一 组 分 值 的 平均 值 
的 t 测 试 。 

口 ttest ind(a, b[, axis, equal var, nan policy]): 该 数据 包 用 于 计算 两 个 独立 分 值 样本 
均值 的 t+ 测试 。 

LJ ttest ind from stats(meanl, stdl, nobs1, ...): 该 数据 包 用 于 对 摘 述 性 统计 中 两 个 独 
立 样 本 的 均值 进行 t 测 试 。 

[ç ttest_rel(a, b[, axis, nan_policy]): 议 数 据 包 用 于 计算 两 个 相关 分 全 样本 (a Mb) 
上 的 t 测 试 。 

口 kstest(rvs，cdf[，args，N，alternative，mode]): 该 数据 包 用 于 执行 Kolmogorov 
Smirnov WEREMA- 

[Qç chisquare(f obs[,f exp, ddof, axis): ZAHA Fit a A MA 

Q ansari(x, y): 该 数据 包 用 于 执行 等 尺度 参数 的 Ansari-Bradley 测试 。 

Q ”bartlett(*args): 该 数据 包 用 于 执行 Bartlett 的 等 方 开 测试 。 
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Q levene(args, *kwds): 该 数据 包 用 于 执行 Levene 的 等 方 关 测试 。 


UL) shapiro(x[, a, reta]): 该 数据 包 用 于 执行 Shapiro-Wilk 正 态 测试 。 

Q = anderson(x{, dist): 针对 来 目 特定 分 布 的 数据 ， 该 数据 包 用 于 执行 Anderson-Darling 

L} anderson ksamp(samples[, midrank]): 1220484 FTT Anderson-Darlingk k 3% 
样 测试 。 


上 述 内 容 展 示 了 一 些 较为 流行 的 统计 测试 。 如 果 读 者 访问 scipy.stats 子 包 中 的 文档 
(对 应 网 址 为 https://docs.scipy.org) ， 还 会 发 现 更 多 的 专项 测试 。 

下 面 通过 菜 项 测试 回答 以 下 问题 ， 两 组 学 生 的 总 体 方差 是 否 相 等 ? 其 中 ， 一 组 学 生 
的 饮酒 量 较 低 , 而 另 一 组 学 生 的 饮酒 量 较 高 。 鉴于 该 问题 与 方差 相关 , 因而 可 采用 Bartlett 
Wik, FLAME AEH, MEIAS, SAN 5.9 所 示 。 


: grades low acl = student[ 'G3' |[student[ 'acl' ]=="Low' ] 
grades high acl = student[ 'G3'][student[ ‘acl’ |=='High' | 
stats.bartlett(grades low_acl, grades high acl) 


BartlettResult(statistic=1.1025085913378183, pvalue=0.29371623181175127) 


图 5.9 


图 5.9 中 显示 了 样本 中 的 方差 , Ae eR IR. 下面 通 过 一 项 正规 的 测试 以 对 总 
ATT Fe Wal pS HH EEG ee. A 5.9 中 分 别 定义 了 表示 Low 分 组 中 学 生成 绩 的 同 量 、High 
分 组 学 生成 绩 同 量 ， 以 及 一 个 Bartlett 函数 。 相 应 地 ,传递 至 该 函数 的 唯一 内 容 即 是 刚刚 
创建 的 两 个 癌 量 。 

此 处 须 关 注 pvalue, 对 应 值 为 0.29371623181175127， 大 于 之 前 的 显著 性 水 平 , 即 5% 
或 0.05。 因 此 ， 根 据 该 测试 ， 我 们 不 能 排除 等 方 震 的 零 假 设 。 相 应 地 ， 可 假设 这 两 组 分 
数 源 日 具有 相同 方差 的 一 个 整体 。 

在 下 一 个 测试 中 ， 将 尝试 回答 下 列 问 题 ， 酒精 的 消耗 量 是 否 会 对 学 业 带 来 影响 ? 当 
丛 看 数据 或 样本 数据 的 可 视 化 结果 时 ， 可 以 看 到 两 组 学 生 的 成 绩 ， 或 者 说 平均 成 绩 ， 存 
在 看 非常 明显 的 堪 寞 。 在 图 5.10 F, SYBASE RAN ASE, CBSO 
一 组 学 生 其 成 绩 平 均值 较 高 。 

下 面 笑 试 构建 两 种 假设 。 针 对 当前 问题 ， 零 假设 可 捅 述 为 ， 两 组 期 末 成 绩 的 总 体 均 
值 是 相等 的 ; 备 择 假设 则 表明 ， 期 末 成 绩 的 总 体 均 值 是 不 同 的 。 在 进行 任何 测试 之 前 ， 
需要 记 住 ， 全 部 测试 均 包 售 了 有 某 些 假设 条 件 ， 当 前 即 定义 了 3 个 测试 假设 条 件 ， 并 验证 
这 3 个 假设 在 当前 情况 下 是 成 立 的 ， 包 括 第 3 个 假设 条 件 ， 即 方差 相等 一 一 我 们 刚刚 利 
用 之 前 的 测试 证 明了 这 一 点 。 
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fig, axes = plt.subplots(1,2, figsize = (14,4)) 
sns.boxplot(x='acl', y='G3', data=student, ax=axes[6@]) 
sns.pointplot(x='acl', y='G3', data=student, ax=axes[1]); 


图 5.10 


当 执 行 t 测 试 时 ， 可 使 用 stats 数据 包 中 的 ttest_ind 函数 。 其 间 ， 可 传递 包含 两 组 学 生成 
绩 的 两 个 同 量 ， 并 设置 一 个 附加 参数 以 表示 方差 是 相等 的 。 当 执行 该 测试 时 ， 可 回顾 一 下 之 
前 讨论 的 统计 结果 和 op 1H. 在 图 5.11 中 ,可 以 看 到 p EUR, BU 4.6036088303692686e-06。 


In [20]: | stats.ttest ind(grades low_acl, grades high acl, equal var=True) 


Out[290]: Ttest_indResult(statistic=4.621320706949354, pvalue=4.6036088303692686e-06) 


图 5.11 


总 之 ， 这 是 文 持 备 择 假设 的 一 个 有 力 的 证 据 。 也 束 是 说 ， 当 比较 两 组 内 容 时 ， 成 缚 
的 总 体 均 值 实际 上 是 不 同 的 。 因 此 ， 最 终结 论 如 下 : 当 分 析 两 组 成 绩 时 ， 二 者 间 在 统计 
学 意义 上 和 丰 在 看 显 首 的 过 异 。 由 于 璐 酒精 握 入 量 的 一 组 学 生 其 平均 值 低 于 男 一 组 学 生 的 
平均 值 ， 结 果 表 明 ， 酒 精 摄 入 量 对 学 生 的 学 业 和 存在 着 负面 影 啊 。 

下 面 明 过 假设 测试 回 深 以 下 问题 ， 男 学 生 的 饮酒 量 是 任 局 于 女 学 生 ? 这 一 问题 涉及 
以 下 两 个 主题 。 

D ”对 关联 表 执 行 卡 方 测试 。 

中 ”对 两 个 天 联 表 的 关系 执行 可 视 化 操作 。 

对 此 ， 可 尝试 在 Jupyter Notebook 进行 操作 ， 如 图 5.12 所 示 。 

在 图 5.12 中 可 以 看 到 ， 女 性 的 数量 多 于 田 性 ， 且 低 饮 酒量 的 学 生 占 据 了 大 多 数 。 对 
于 天 联 表 (也 称 作 交叉 表 )〉 ， 存 在 多 种 方法 可 对 其 进行 计算 。 这 里 将 采用 pandas 中 的 
crosstab 范 数 并 传递 两 个 Series， 输 出 结果 表示 为 每 个 分 类 的 计数 值 。 当 考 公 这 两 个 类 别 
变量 时 ， 还 可 能 涉及 4 种 分 类 。 因 此 ,分别 有 62 位 女性 和 104 MRTE, RARA EE 
高 。 另 外 ， 我 们 还 统计 了 低 酒 精 消 耗 量 的 女性 和 男性 数量 。 图 5.13 显示 了 此 类 数值 的 可 
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In [21]: | fig, axes = plt.subplots(1,2, figsize = (14,4)) 
student! 'gender'].value counts().plot(kind='bar', ax=axes[@], title="Gender') 
student['acl'].value_ counts().plot(kind='bar', ax=axes[1], title='Alcohol Consumption Level"); 


Gender Alcohol Consumption Level 
400 500 


400 


300 


In [22]: gender_acl_table = pd.crosstab(student['acl'], student['gender']) 
gender_acl_table 


Out! 22]: 
gender F M 


acl 
High 62 104 


Low 321 162 


图 5.12 


fig, axes = plt.subplots(1,2, figsize = (14,4)) 
gender_acl_table.plot(kind='bar', stacked=True, ax=axes[@]); 
(19@*(gender_acl_table.T/gender_acl_table.apply(sum, axis=1)).T).plot(kind="bar', stacked=True, ax=axes[1]); 


图 5.13 


在 图 5.13 中 可 以 看 到 ， 一 方面 ，Low 分 组 中 的 女性 比例 大 于 男性 ， 另 一 方面 ， 对 于 
酒精 摄 入 量 较 大 的 一 组 ， 男 性 占据 了 较 大 的 比例 。 因 此 ， 两 个 变量 间 似乎 包含 了 某 种 关 
系 ， 样 本 中 显然 也 涵盖 了 某 种 关系 。 这 里 的 问题 是 ， 这 种 关系 适用 于 总 体 吗 ? 为 了 回答 
这 一 问题 ， 我 们 需要 执行 假设 测试 ， 如 图 5.14 R. 


- 106° Python 数据 分 析 师 修炼 之 道 


In [24]: chi stat, p value, dof, expected = stats.chi2 contingency(gender acl table) 


In [25]: p value 


Out[25]: 8.72933011769437e-11 


In [26]: expected table = pd.DataFrame(expected, index=[‘High’,’Low’], columns=['F','M']) 
expected_table 


Out[ 26]: 
F M 
High 97.96302 68.03698 
Low 285.03698 197.96302 


图 5.14 


从 图 5.14 可 以 看 到 ， 当 前 示例 中 所 用 的 chi2 contingency 函数 源 日 stats 数据 包 ， 并 
传 违 了 之 前 创建 的 天 联 表 。 该 函数 将 生成 多 个 对 销 ， 如 chi-square statistic. p value, A 
HE (dof) 以 及 零 假 设 下 包含 期 望 值 的 一 个 表 。 在 当前 示例 中 ， 堆 假设 可 摘 述 为 : 总体 
中 两 个 变量 间 不 存在 任何 关系 。 当 前 示例 执行 测试 后 ， 对 应 结果 如 图 5.15 Ara. 


In [24]: chi stat, p value, dof, expected = stats.chi2 contingency(gender_acl table) 


In [25]: p value 


Out[25]: 8.72933011769437e-11 


In [26]: expected table = pd.DataFrame(expected, index=[‘High’, Low'], columns=['F", "M" ]} 
expected table 


Out| 26 |: 
F M 


High 97.96302 68.0369% 
Low 285 0369% 197.96302 


In [27]: fig, axes = plt.subplots(1,2, figsize = (14,4)) 
(100*(gender_acl table.T/gender_acl table.apply(sum, axis=1)).T)\ 
»~plot(kind="bar’, stacked=True, title= Observed’, ax=axes[@]|); 


(108* (expected table.T/expected table.apply(sum, axis=1)).T)\ 
.Plot(kind= bar”, stacked=True, title='Expected under NO relation’, ax=axes[1]); 


Observed Expected under NO relation 


图 5.15 
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对 于 图 5.15 FH p value 对 象 ， 可 以 看 到 该 值 较 低 ， 即 8.72933011769437e-11, Kt 
为 备 择 假 设 提 供 了 较为 明显 的 证 据 。 在 当前 示例 中 ， 备 择 假 设 古 指 两 个 变量 间 实 际 上 存 
在 某 种 关系 。 另 一 个 令 人 感 兴 趣 的 对 象 则 是 expected。 如 果 零 假设 成 立 ， 这 将 是 我 们 观察 
到 的 期 望 频率 。 

需要 记 住 的 是 ， 上 述 示 例 测试 的 零 假设 可 描述 为 ， 两 个 变量 间 不 存在 菜 种 关系 。 
此 ， 如 果 总 体 中 不 存在 任何 关系 ， 则 可 对 In [32] 执 行 可 视 化 操作 ， 进 而 观察 数据 的 状态 
并 进行 适当 比较 。 相 应 地 ， 这 可 视 作 一 个 额外 的 证 据 ， 进 而 展示 了 男性 学 生 的 饮酒 习惯 
与 女性 学 生 的 饮酒 习惯 之 间 的 差异 。 不 难 发 现 ， 男 性 学 生 的 饮酒 量 较 高 。 
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本 章 讨 论 了 SciPy， 并 于 随后 对 各 种 子 包 进行 了 简要 的 介绍 。 除 此 之 外 ， 我 们 还 学 习 
了 如 何 利 用 scipy.stats 数据 包 执 行 卡 方 测试 ， 进 而 执行 其 他 的 一 些 计算 ， 如 置信 区 间 、 概 
率 计算 以 及 其 他 的 统计 测试 类 型 。 

第 6 章 将 讨论 预测 分 析 模 型 、 机 器 学 习 和 scikit-learn 库 等 内 容 。 


第 6 章 预测 分 析 模 型 


本 章 主要 涉及 以 下 主题 。 


CL) ”预测 分 析 。 

D HAZAJ. 

L) scikit-learn 库 。 

D ”如 何 构建 分 类 和 回归 模型 。 


6.1 预测 分 析 和 机 器 学 习 


本 而 将 介绍 预测 分 析 的 基础 知识 ， 并 深入 了 解 基于 预测 分 析 的 机 釉 学 习 方案 ， 以 及 
各 种 撩 型 的 机 天 学 习 模 型 。 在 本 布 的 最 后 还 将 会 介绍 监督 学 习 模 型 的 组 成 部 分 。 


Q. 


在 当前 上 下 文 环 境 中 ， 预 测 是 指 对 未 知 或 尚未 观察 到 的 结果 进行 猜测 ， 而 与 未 来 无 关 。 


仓 在 多 种 方式 可 对 事物 进行 预测 。 例 如 ， 通 过 直 筑 或 者 请 教 专家 -进行 判断 ， 这 至 都 
ERATE SN EL. UE, RRA RATT Ae THM Hr < 
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D ” 科 拉 的 友 展 为 我 们 提供 了 实现 这 种 分 析 的 手段 。 

”预测 分 析 有 具有 非常 有 效 、 人 准确 的 特征 ， 并 且 工 作 民 好 。 

预测 分 析 征 将 数据 与 数学 、 统 计 学 和 计算 机 科学 撤 术 相 结 合 ， 进 而 对 未 知事 件 进行 
预测 。 预 测 分 析 的 目标 是 对 未 知事 件 可 能 友 生 的 情况 进行 民 好 的 评估 。 

那么 ， 如 何 执 行 预 测 分 析 。 对 此 ， 和 存在 多 种 解决 方 条 。 近 期 ， 机 占 学 习 表现 得 较为 
突出 ， 为 了 进一步 理解 其 工作 方式 ， 下 面 育 先 对 机 占 学 习 展开 讨论 。 

届 和 规 学 习 征 计算 机 科学 的 一 个 于 领域 ， 并 可 以 简单 地 描述 为 : 无 须 喧 式 地 编程 即 可 
赋予 计算 机 茶 种 学 习 能 力 。 机 器 学 习 领 域 已 经 上 友 展 出 许多 方法 ， 以 使 计算 机 使 用 数据 执 
行 茶 些 任务 。 这 些 方法 在 预测 分 析 方 面 非 党 成功。 当然 ， 机 天 学 习 也 和 存在 一 些 缺 点 ， 理 
解 机 玲 学 习 可 能 会 遇 到 的 问题 号 十 分 重要 的 。 我 们 可 以 把 此 关 学 习 问 题 分 成 几 个 大 头 。 
为 了 简化 这 一 问题 ， 可 以 考虑 两 组 学 习 模式 ， 即 监督 学 习 和 无 监督 学 习 。 本 而 主要 讨论 
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监督 和 学习， 以 及 构建 监督 机 磊 学 习 所 需 的 各 种 元 系 。 

在 考虑 创建 机 器 学 习 模型 时 , 首先 应 想到 的 问题 是 : 如 何 知 道 应 该 使 用 监督 式 学 习 ? 
理解 这 一 点 的 关键 在 于 获取 需要 预测 的 目标 变量 。 监 督 式 学 习 包 含 了 与 特定 概念 /主题 相 
关 的 样本 或 观测 结果 。 其 中 ， 每 个 观测 结果 都 上 共有 不 同 的 特征 ， 这 些 特征 通 第 称 作 属 性 
或 目标 变量 ， 同 时 需要 对 这 些 目标 杰 量 进行 预 负 。 

下 面 考 查 包 含 多 行 学 生 数据 的 数据 集 。 图 6.1 分 别 显 示 了 人 性别、 年 龄 、 住 址 等 特征 
言 息 。 


school sex age address famsize Pstatus Medu Fedu Mjob Fjob ... famrel freetime goout Dalc Walc health absences 
GP F U Ay 4 4 at home teacher ... 4 a 4 1 1 a 4 
GP at_ home other... 


0 a 


0 
4 
2 GP 
3 
4 


1 1 | 1 

1 1 at home other... 4 3 2 2 3 6 
GP 4 2 health services... 3 2 2 1 1 

3 3 1 2 0 


GP other other ... 4 3 2 


5 rows * 33 columns 


图 6.1 
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和 面 ， 当 目标 变量 在 本 质 上 是 类 列 变 量 时 ， 即 会 进行 分 类 ， 这 方面 的 一 些 例子 包括 酒精 请 
费 水 平 《〈 低 或 高 ) 或 信用 卡 区 多 的 类 型 ; 态 一 方面 ， 如 打上 目标 变量 征 一 个 数值 变 量 ， 则 
会 涉及 回归 问题 ， 数 值 变 量 的 一 些 相关 示例 包 插 房屋 或 股票 的 价格 ， 或 者 一 个 月 内 售 出 
蛙 元 的 数量 。 针 对 每 一 类 问题 ， 分 别 和 存在 多 种 模型 可 对 其 进行 修正 。 

综 上 所 述 ， 痛 先 ， 可 将 本 下 中 的 模型 视 为 一 个 黑 盒 ， 这 意味 看 我 们 不 会 解释 与 凡 部 
工作 方式 相关 的 细 克 内 容 。 考 谍 到 这 契 对 预测 分 析 的 整体 介绍 ， 因 而 接 下 来 将 关注 如 何 
构建 预测 模型 的 全 局 内 容 。 这 一 原则 同样 适用 于 机 融和 学 习 中 的 大 多 数 概念 。 


6.2 理解 scikit-learn 库 


本 节 主 要 介绍 scikit-learn 库 ， 并 以 此 实现 人 务 蛙 的 预测 模型 。 对 此 ， 和 需要 深入 理解 
scikit-learn, LAA infe] Jupyter Notebook 加 载 iris 数据 集 。 随 后 ， 将 详细 讨论 如 何 利用 
scikit-learn 构建 机 需 学 习 模 型 ， 并 在 此 基础 上 实现 简单 的 预测 模型 。 

scikit-learn 是 针对 机 上 费 学 习 的 一 个 较为 流行 的 Python 库 ， 同 时 面 同 数据 建 模 和 数据 
DHT HERE I re OCH) API 工具 。scikit-learn 构建 于 NumPy、SciPy 和 Matplotlib 之 上 。 图 6.2 
显示 J Jupyter Notebook 中 的 操作 结果 。 
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from sklearn import datasets 


import pandas as pd 
import numpy as np 


iris = datasets.load iris() 
iris features = iris.data 
iris target = iris.target 


iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names ) 
iris_df['target'] = iris.target_names[iris.target] 
iris_df.head() 


sepallength (cm) sepalwidth(cm) petallength(cm) petal width(cm) target 
v1 3.9 1.4 0.2 setosa 
4.9 3.0 1.4 0.2 setosa 
4.7 3.2 1.3 0.2 setosa 
4.6 3.1 15 0.2 setosa 


5.0 3.6 14 0.2 setosa 


图 6.2 


此 处 并 未 导入 全 体 库 ， 而 是 有 人 针对 性 地 寻 入 了 东 些 库 。 为 外 ， 我 们 需要 导入 datasets 
对 象 ， 进 而 可 加 载 scikit-learn 提供 的 所 有 数据 集 。 
为 了 更 好 地 理解 上 述 概念 ， 这 里 将 采用 iris 作为 示例 。 图 6.3 中 显示 了 iris 数据 集中 
的 一 些 数据 行 。 
In [4]: iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names) 
iris_df['target'] = iris.target_names[iris.target] 
iris_df.head() 


Out[4]: 
sepal length (cm) sepal width (cm) petal length (em) petal width (cm) target 


5.1 3.5 1.4 0.2 setosa 


4.9 3.0 1.4 0.2 setosa 


4.7 3.2 ; 0.2 setosa 


4.6 a: 1 ; 0.2 setosa 


5.0 3.6 0.2 setosa 


图 6.3 


该 数据 集 包 含 了 与 伦 条 相关 的 150 个 观测 结果 ， 且 每 朱 花 对 应 于 4 个 测量 数据 ， 分 
别 表示 为 sepal length、sepal width. petal length, petal width。 除 此 之 外 ， 此 处 还 定义 了 万 
的 种 类 ， 并 将 其 用 作 目 标 变 量 。 

数据 集中 提 到 的 物种 包括 setosa, versicolor 和 virginica。 如 果 使 用 数据 集中 的 测量 值 
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来 预测 花 条 的 种 类 , 这 将 是 一 个 类 别 变 量 。 也 就 是 说 , 我 们 正在 执行 一 项 分 类 任务 。scikit- 
learn 中 实现 的 主要 API 则 是 估计 函数 。 估 计 函 数 对 象 中 包含 了 数据 学 习 所 用 的 模型 。 

TE Jupyter Notebook 中 ， 冯 先 需 要 叶 入 信 算 函数 ( 沼 称 作 模 型 )。 下 列 代 人 码 用 于 导入 
这 一 分 类 遂 。 


from sklearn.neighbors import KNeighborsClassifier 


这 里 所 用 的 模型 称 作 KNeighbors 模型 ， 并 从 scikit-learn 中 予以 寻 入 。 随 后 ， 将 生成 
该 对 象 实例 ， 即 flower classifier， 对 应 代码 如 下 。 


flower Classifier — BNeighborsClassitier(n ne1rghbors—3) 


这 里 ， 我 们 同 当 前 对 象 提供 了 超 参 数 。 如 前 所 述 ， 此 类 对 象 可 视 作 黑 合 。 因 此 ， 我 
们 并 不 会 深入 讨论 与 特定 数值 或 变量 相关 的 一 些 问 题 。 

然后 ， 可 利用 这 些 数 据 来 训练 估计 函数 。 为 此 ， 此 处 使 用 flower classifier 对 象 的 fit 
方法 ， 这 有 助 于 传递 相关 特性 和 目标 。 这 意味 着 当前 已 经 使 用 了 特性 来 识别 目标 。 图 6.4 
所 示 代 人 码 及 其 输出 用 于 训练 估算 函数 。 


In [16]: flower classifier.fit(X=iris features, y=iris target) 


Out[16]: KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski', 


metric _params=None, n_jobs=1, n_neighbors=3, p=2, 
weights='uniform' ) 


图 6.4 


当前 ， 对 应 模型 可 进行 评估 操作 ， 这 也 是 我 们 无 法 查看 到 的 内 容 。 假 设 评估 结果 令 
人 满意 ， 则 可 利用 该 模型 进行 预测 。 图 6.5 显示 了 用 于 预测 花 采 种 类 的 相关 特征 。 


Oss. 


这 里 ， 所 用 数组 须 为 二 位 NumPy 数组 。 
效 组 的 输出 结 朱 为 0 时 ， 对 应 物种 将 科 分 类 为 setosa; 为 外 ,数值 1 和 2 则 将 物种 分 


类 为 versicolor 和 virginica. 

当 预 名 共和 开 的 物种 时 ， 可 使 用 分 关 需 对 象 ， 并 于 随后 传递 new_flower1， 对 应 的 得 出 
结果 如 图 6.6 所 示 。 

根据 所 接收 到 的 输出 结果 ,标记 为 0 的 物种 为 setosa。 通 过 类 似 的 方式 ， 还 可 对 第 二 
和 东 化 的 物种 进行 预测 。 针 对 不 同 的 测量 行为 ， 可 持续 执行 相同 的 操作 。 

通过 创建 包含 名 种 花 条 值 的 n 个 NumPy 数组 ， 还 可 码 看 昧 积 预 测 结 末 ， 我 们 可 将 其 
PRIE new flowers Kt. B| 6.7 显示 了 所 定义 的 predictions pk ZL. 
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In [11]: |# The features must be two-dimensional array 
new_flowerl = np.array([[5.1, 3.8, 1.1, 8 
new_flower2 = np.array([[6.6, 2.9, 4.5, 1. 


0 ==> setosa 
1 == > versicolor 


2 ==> virginica 


In [12]: flower_classifier.predict(new flower1) 


Out[12]: array([6]) 


In [13]: flower_classifier.predict(new_flower2) 


Out[13]: array([1]) 


In [14]: | new_flowers = np.array([[5.1, 3.0, 1.1, 6.5],[6.@, 2.9, 4.5, 1.1]]) 
predictions = flower_classifier.predict(new_flowers) 
predictions 


Out[14]: array([@, 1]) 


In [12]: flower_classifier.predict(new_flower1) 


Out[12]: array([e]) 


图 6.6 


: |new_flowers = np.array([[5.1, 3.6, 1.1, @.5],[6.@, 2.9, 4.5, 1.1]]) 
predictions = flower_classifier.predict(new_ftlowers) 
predictions 


: array([@, 1]) 


图 6.7 


HME, BBS RUBY PTB Sete, FRA setosa; 第 二 个 数 信 对 应 
TRE SEE, FRADE versicolor. 


6.3 ”使 用 scikit-learn 构建 回归 模型 


6.2 节 讨 论 了 基于 scikit-learn 的 分 类 模 EP — 将 对 随机 森林 模型 进行 训练 ， 并 
以 此 进行 预测 。 此 外 ， 本 节 还 将 构建 一 个 分 类 模型 ， 并 作为 当前 环境 下 的 目标 变量 ， 这 
将 是 一 个 描述 青少年 饮酒 习惯 的 分 类 值 。 

对 此 ， SE We 并 于 随后 训练 逻辑 回归 模型 ， 进 而 考 
但 如 何在 较为 基础 的 水 平 之 上 评估 该 分 类 模型 


* 114° Python 数据 分 析 师 修炼 之 道 


在 开始 阶段 ， 可 加 载 相关 库 ， 导 入 学 生 数 据 集 并 对 其 进行 适当 转换 ， 类 似 于 之 前 我 
们 所 做 的 那样 。 此 处 的 目标 是 根据 学 生 的 特征 预测 其 饮酒 程度 。 这 一 类 特征 均 为 分 类 值 ， 


且 高 低 程度 不 一 而 同 。 图 6.8 显示 了 相关 库 和 数据 集 的 加 载 过 程 。 


In [1]: | import pandas as pd 
import numpy as np 
“matplotlib inline 


student = pd.read_csv("../data/student/student.csw", sep=";") 
student.rename(columns={'sex':'gender'}, inplace=True) 
student['alcohol_index"] = (5*student["Dalc'] + 2*student[‘Wale'])/7 
# Alcohol consumption Level 

student['acl'] = student['alcohol_index'] <= 2 

student['acl'] = student[‘acl'].map({True: ‘Low’, False: ‘High'}) 


student .head(3) 


school gender age address famsize Pstatus Medu Fedu Mijob Fjob ... goout Dale Wale health absences G1 


A 4 4 at home teacher ... 4 
T 1 1 at_home other... 2 


T 1 1 at_home other... a 6 


图 6.8 


G3 alcohol_index 
1.000000 
1.000000 
2.2057 14 


图 6.9 


Oss. 


scikit-leam 库 仅 支持 数字 ， 因 此 在 数字 转换 过 程 中 ， 这 一 点 十 分 重要 。 对 此 ， 可 使 用 


称 之 为 独 热 编码 的 虚拟 特征 。 


当 对 变量 进行 独 热 (one-hot) 编码 时 ， 女 性 学 生 对 应 于 0， 而 男性 学 生 对 应 于 1。 对 
于 famsize 和 acl (酒精 消耗 水 平 ) ， 将 采用 相同 的 转换 操作 ， 对 应 代码 如 图 6.10 Aras. 


In [6]: # For gender: Female will be Ə, Male will be 1 
student['gender'] = student['gender'].map({"F':@, 'M':1}).astype(int) 


# For famsize: 'LE3' - Less or equal to 3 will be @. 'GT3' - greater than 3 will be one 


student[ 'famsize'] = student[ 'famsize'].map({'LE3':6, 'GT3':1}).astype(int) 
# for acl: ‘Low' will be 8, ‘High" will be 1 
student['acl'] = student['acl'].map({'Low':@, "High':1}).astype(int) 


图 6.10 
随后 ， 可 将 此 类 数值 保存 至 对 象 x 和 yy 中， 对 应 代 人 码 如 下 所 示 。 


x = student [features | .values 


student [target] .values 
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当 构建 简单 模型 时 ， 需 要 预测 最 为 常见 的 类 别 。 在 当前 示例 中 ， 可 通过 如 图 6.11 所 
示 的 代码 计算 最 为 常见 的 类 别 。 


In [8]: student['acl'].value_counts(normalize=True ) 


Out[8]: © @.744222 
1 0.255778 
Name: acl, dtype: floaté4 


图 6.11 


可 以 看 到 ， 大 约 74% 的 学 生 的 酒精 摄 入 量 较 低 。 因 此 ， 我 们 可 以 构建 一 个 简单 的 模 
型 ， 并 对 74% 的 不 可 见 情 形 进行 正确 的 分 类 。 这 一 数字 十 分 午 要 一 一 它 提 供 了 第 一 个 基 
准 ， 随 后 可 以 此 来 比较 所 构建 模型 的 优 民 程 度 。 

下 面 将 构建 一 个 称 之 为 志和 辑 回归 的 预测 模型 ， 寻 入 该 模型 ， 创 建 该 对 象 的 实例 ， 并 
于 随后 利用 我 们 的 数据 训练 该 模型 。 图 6.12 所 示 的 代码 块 描述 了 这 一 过 程 。 

In [9]: from sklearn.linear_model import LogisticRegression 

In [18]: student_classifier_logreg = LogisticRegression(C=2) 


In [11]: | student_classifier_logreg.fit(X, y) 


Dut[11]: LogisticRegression(C=2, class_weight=None, dual=False, fit_intercept=True, 
intercept_scaling=1, max_iter=166, multi_class='ovr', n_jobs=1, 
penalty='12', random_state=None, solver='liblinear', tol=0.00901, 
verbose=8, warm_start=False) 


图 6.12 
当 整 体 评 估 当 前 模型 时 ， 需 要 利用 交叉 验证 对 其 进行 评估 。 有 目前 ， 这 一 评估 过 程 还 
较为 基础 ， 以 使 我 们 对 这 一 概念 有 一 个 大 致 的 了 解 ， 如 图 6.13 Aras. 
: ,student[ "predictions logreg'] = student_classifier_logreg.predict(X) 


: confusion_matrix = pd.crosstab(student["predictions_logreg'], student['acl']) 
confusion_matrix 


predictions logreg 


0 453 105 


1 30 £61 


图 6.13 
肖 先 ， 可 计算 时 元 格 中 的 预测 结果 (计算 当前 模型 生成 的 预测 结果 )〉 ; 随后 ， 将 预 
测 结果 和 实际 观察 结果 制 成 一 个 表格 ， 进 而 构建 一 个 混淆 和 矩阵， 如 图 6.14 所 示 。 
息 阵 的 对 角 线 表示 分 类 需 做 出 正确 预测 的 数量 ， 随 后 可 根据 诅 数 字 计 算 名 为 Accuracy 


A 116° Python 数据 分 析 师 修炼 之 道 


的 简单 的 评估 窍 隆 。 这 只 是 模型 所 生成 的 正确 预测 的 一 部 分 内 容 。 在 所 有 这 些 预 汕 结 来 
中 ， 左 上 和 角 和 右 下 和 角 对 应 的 数值 是 正确 的 结 来 。 


predictions_logreg 


0 453 105 
1 30 £61 


图 6.14 
据 此 ， 可 计算 当前 模型 的 精确 度 ， 对 应 代码 如 图 6.15 所 示 。 


In [14]: ac = (confusion _matrix.ix[@,@] + confusion _matrix.ix[1,1])/student.shape[@] 
print("Accuracy: {}".format(ac)) 


Accuracy: 8.79198767323436955 


图 6.15 


通过 观察 可 知 ， 当 前 模型 的 精确 度 为 0.79 或 79%。 相 应 地 ， 可 将 该 值 与 简单 模型 的 
精确 度 (74%) 进行 比较 。 可 以 发 现 ， 两 个 模型 中 所 得 到 的 数值 相关 无 几 ， 其 原因 在 于 ， 
逻辑 回归 模型 是 一 类 十 分 简单 的 模型 。 

另外 ， 我 们 还 可 竹 试 使 用 更 为 复杂 的 模型 ， 即 RandomForestClassifier， 并 将 其 作为 
黑 盒 以 查看 精确 度 方 面 的 变化 。 针 对 于 此 ， 首 先 可 导入 一 个 对 象 ， 创 建 该 对 象 实例 ， 利 
用 相关 数据 训练 该 模型 ， 并 于 随后 生成 预测 结果 ， 对 应 代码 如 图 6.16 所 示 。 


]: from sklearn.ensemble import RandomForestClassifier 
: student classifier rf = RandomForestclassifier() 


: student_classifier_ rf.fit(x,y) 
student[ ‘predictions rf'] = student classifier _rf.predict(X) 


: confusion_matrix = pd.crosstab(student[ ‘predictions rf‘], student[‘acl‘]) 
confusion matrix 


acl 0 1 
predictions _rf 

0 480 19 

1 3 147 


: ac = (contusion matrix.ix[®,@] + confusion matrix.ix[1,1])/student.shape[@] 
print("Accuracy: {}".format(ac)) 


Accuracy: 6.9661616949152542 


:|# [ gender’, ‘famsize’, ‘age’, ‘“studytime’, ‘famrel', ‘qoout', ‘Freetime’, ‘G3°] 
new student = np.array([[®, 1, 18, 2, 1, 5, 5, 16]]) 
prediction = student_classifier rf.predict(new_student) 
print("The model predicts that the student belongs to the:") 
if prediction == 1: 
print ("HIGH Alcohol Consumption group" ) 
else: 
print( LOW Alcohol Consumption group") 


图 6.16 
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此 处 构建 了 一 个 新 的 混淆 矩阵 ， 如 图 6.17 所 示 。 通 过 观察 可 知 ， 模 型 的 精确 度 较 高 。 
acl 


predictions_rf 


0 480 19 


图 6.17 


最 终 ， 模 型 的 精确 度 为 96%， 其 原因 在 于 ， 随 机 森林 这 一 类 复杂 模型 往往 会 产生 过 
拟 合 。 过 拟 合 这 一 概念 是 指 ， 模 型 了 解数 据 集中 所 友 生 的 状况 ， 但 未 将 这 一 知识 一 般 化 
至 不 可 见 数据 。 

这 也 是 模型 评估 本 质 上 非常 复杂 并 且 需 要 交叉 验证 的 主要 原因 之 一 。 然 和 而， 精度 窃 
阵 是 预测 模型 中 经 党 使 用 的 一 个 矩阵 。 

目前 ， 我 们 可 使 用 该 模型 对 不 可 见 数据 进行 预测 。 假 设 出 现 了 一 名 包含 新 特征 的 学 
生 ， 该 学 生 为 男性 ， 年 龄 为 18 周岁 ， 来 自 于 一 个 多 人 口 家 许 ; 另外 ， 他 每 周 学 习 两 个 小 
IN, FAKE AMA. MIWA 6.18 所 示 的 代码 ， 可 预测 该 名 学 生 的 酒精 报 入 量 。 


In [20]: # [‘gender’, ‘famsize’, ‘age’, ‘studytime’, ‘famrel’, ‘qoout’, Freetime’, ‘G3°] 
new student = np. array (TEL, 1, 18, 2, 1, 5, 5, 18|] 
prediction = student classifier rf.predict(new student) 


print("The model predicts that the student belongs to the:") 
if prediction == 1: 

print("HIGH Alcohol Consumption group”) 
else: 

print(“LOW Alcohol Consumption group") 


The model predicts that the student belongs to the: 
HIGH Alcohol Consumption group 


图 6.18 


bia, “Hye A MIAA HE JT HIGH Alcohol Consumption group. 
MASA, FL, FEKTE, AE RE. AERA ARAN 16 
分 。 图 6.19 显示 了 代码 的 输出 结案 。 


In [19]: | # [’gender’, ‘famsize’, ‘age’, ‘studytime’, ‘famrel", ‘goout’', ‘freetime’, 3 | 
new student = np.array([[®, 1, 18, 2, 1, 5, 5, 16]]) 
prediction = student classifier rf.predict(new student) 
printf The model predicts that the student belongs to the:”") 
if prediction == 1: 
print("HIGH Alcohol Consumption group") 
else: 
print("Low Alcohol Consumption group") 


The model predicts that the student belongs to the: 
LOW Alcohol Consumption group 


图 6.19 
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根据 上 述 特征 ， 模 型 预测 该 学生 属于 LOW Alcohol Consumption group. 
6.4 利用 回归 模型 预测 房屋 价格 


本 节 将 利用 房产 数据 集 构建 回归 模型 。 首 先 ， 需 要 加 载 房屋 价格 数据 集 以 供 建 模 使 
用 。 随 后 ， 将 训练 一 个 线性 回归 模型 ， 并 通过 一 种 简单 、 直 观 的 方式 评估 该 模型 ， 进 而 
通过 该 模型 预测 结果 。 

下 面 加 载 相关 库 并 导入 数据 集 。 如 前 所 述 ， 我 们 意识 到 这 样 一 个 事实 ， 在 该 数据 集 
中 ， 一 些 社区 包含 较 少 的 观测 结果 。 为 了 解决 这 一 问题 ， 仅 对 超过 30 个 观测 结果 的 社区 
使 用 当前 模型 。 对 此 ， 应 使 用 以 下 代码 块 。 


counts = housing['Neighborhood'].value counts ( ) 

more than 30 = list(counts[counts>30].index) 

housing = housing.loc[housing['Neighborhood'].1sin(more than 30) ] 

RCA PT VOR ATER TT, PEA RA A 于 全 。 

features = |"CentealAic’. “LotArca’, "“OverallOual”™. "OverallCond'. 
"IstFlr5F', '2ndFlrSF', ‘*BedroomAbvGr’, ‘Age’ | 

target = 'SalePrice' 


通过 观察 可 知 ， 目 标 变量 为 房屋 的 SalePrice; 鉴于 这 是 一 个 数字 ， 因 而 此 处 将 对 回 
归 问 题 进行 处 理 。 

相 比 之 下 ，Neighborhood 和 CentralAir 并 非 是 数字 数据 ， 基 
针对 于 此 ， 可 使 用 以 下 代码 行 。 

# Neighborhood 

dummies nb = pd.get dummies (housing["Neighborhood"], 


drop first=True) 

housing =- pd.concat (|housing, dummies nb], axis lj 

# CentralAir 

housing (*GentralAre’) = housing["CentralAir" | -mapt{ NM :0, 

FT" 21}) -astype (rnc) 

上 述 代 码 将 针对 每 个 社区 生成 新 的 变量 ， 即 虚拟 变量 (dummy variable) 。 实 际 上 ， 
这 针对 每 个 社区 创建 了 包含 值 为 1 的 新 问 量 一 一 房屋 属于 该 社区 ; 否则 ， 将 创建 一 个 包 
SBN 0 的 新 问 量 。 另 外 ， 对 于 未 配置 CentralAir 的 房屋 ， 可 向 其 赋予 值 为 0;， 否则 赋予 
值 为 1。 

接 下 来 ， 向 特征 列表 中 加 入 一 些 新 的 特征 ， 并 创建 包含 特征 、 目 标 变量 和 观测 结果 
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的 对 象 ， 如 图 6.20 Prax. 


features += list(dummies_nb.columns) 


housing[ features ].values 
housing| target ].values 
housing. shape[@] 


图 6.20 
在 训练 模型 之 前 ， 应 确保 该 模型 足够 简单 。 对 于 回归 模型 ， 一 种 最 为 简单 的 模型 是 
预测 平均 值 。 对 此 ， 可 使 用 如 图 6.21 PTR EJIRE -o 


In [8]: y_mean = np.mean(y) 
y_mean 


Out[8]: 180167.63358778626 


图 6.21 


对 于 当前 目标 变量 ， 平 均值 约 为 180000 美元 。 针 对 模型 评估 ， 可 使 用 均 方 根 误差 评 
估 测 量 方案 ， 常 称 作 RMSE， 该 公式 为 


IE, KAMA SP LL HE AT ER SS ACM, AP eee ea, SE AR 
yo HEAD BRANT Air EB Fo BU PS RENEE AR o 
当 对 简单 模型 计算 均 方 根 误差 时 ， 可 采用 如 图 6.22 所 示 的 代码 行 。 


In [9]: RMSE_null_model = np.sqrt(np.sum((y - y_mean)**2) / n) 
RMSE null model 


Out[9]: 78032.944854541685 


图 6.22 
经 观察 可 知 ， 对 应 值 约 为 70000 美元 。 
当 构 建 回 归 模 型 时 ， 首 先 需 要 导入 一 个 对 象 ， 并 于 随后 创建 该 对 象 的 实例 ， 进 而 训 
练 模 型 并 进行 预测 ， 如 图 6.23 所 示 。 
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In [18]: from sklearn.linear_model import LinearRegression 


In [11]: regressor = LinearRegression() 


In [12]: regressor.fit(X, y) 


Out[12]: LinearRegression(copy X=True, fit _intercept=True, n jobs=1, normalize=False) 


In [13]: housing['predictions'] = regressor.predict(X) 


In [14]: y_pred = housing['predictions'].values 


图 6.23 
“Sth ART AR REIN, a ESL OA 6.24 所 示 的 代码 行 。 


In [15]: RMSE_regressor = np.sqrt(np.sum((y - y_pred)**2) / n) 
RMSE _regressor 


Out[15]: 33729.218173366113 


图 6.24 


当前 模型 的 输出 结果 约 为 33000 Sorc, 5R ERWE, ESSE RY 
数字 。 当 在 predictions 与 房屋 的 实际 SalePrice 之 间 进 行 比 较 时 (通过 可 视 化 方式 ) ， 可 
及 用 如 图 6.25 所 示 的 函数 生成 一 个 敌 点 图 。 


In [16]: |housing.plot.scatter(x='SalePrice', y='predictions'); 


500000 
400000 


300000 


wni 
= 
=, 
i 
= 
D 
D 
si 


200000 


100000 


100000 200000 300000 400000 500000 600000 700000 
SalePrice 


图 6.25 


从 图 6.25 Aras ARUS AP a We pT th eB, WI A AR SE E fe a T A JE H SE pr 
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SalePrices， 这 也 说 明 当 前 模型 具有 一 定 的 精确 上 度 。 
接 下 来 ,我 们 将 对 包含 名 类 新 特征 的 房屋 进行 预测 。 如 房屋 包含 CentralAir. LotArea, 
OverallQual (6) 和 OverallCond (6) 。 图 6.26 所 示 的 代码 将 对 房屋 价格 进行 预测 。 


new_house = np.array([[@, 120606, 6, 6, 1200, 500, 3, 5, 6,4,1,6,9,6,9,6,9,0,90,9,6,9,6]] 
prediction = regressor.predict(new_house) 
print("For a house with the following characteristics: \n") 
for feature, feature value in zip(features, new house[8]): 
if feature value > Ø: 
print("{}: {}".format(feature, feature _value)) 
print("\nThe predictied value for the house is: {:,}".format(round(prediction[@]))) 


For a house with the following characteristics: 


LotAreéa: 12006 
Overallgual: 6 
OverallCond: 6 
IstFlrsF: 1266 
2ndFlrsF: 500 
BedroomAbvGr: 3 
Age: 5 

Edwards: 1 


The predictied value for the house is: 184 395 .日 
图 6.26 


预测 结果 表明 ， 房 屋 来 自 Edwards 社区 ， 且 房价 为 184395 美元 。 
对 于 不 同 的 示例 ， 可 适当 地 调整 社区 。 假 设 服 务 示 配置 CentralAir 且 属 于 Timber 社 
区 ， 对 应 代码 的 输出 结果 如 图 6.27 所 示 。 


new house = np.array([[6@, 12886, 6, 6, 1206, 566, 3, 5, 6,@,6,8,6,8,6,0,6,0,8,8,8,@,1]]) 
prediction = regressor.predict(new_ house) 
print("For a house with the following characteristics: \n") 
for feature, feature_value in zip(features, new_house[@]): 
if feature_value > 6: 
print("{}: {}".format(feature, feature_value)) 
print("\nThe predictied value for the house is: {:,}".format(round(prediction[@]))) 


For a house with the following characteristics: 


LotArea: 12000 
OverallQual: 6 
OverallCond: 6 
IstFlrsF: 1200 
2ndFlrsF: 500 
BedroomAbvGr: 3 
Age: 5 

Timber: 1 


The predictied value for the house is: 214,944.6 


图 6.27 

随后 ， 模 型 预测 房价 为 214944 美元 。 针 对 不 同 的 房屋 ， 我 们 可 通过 相同 的 代码 生成 
预 出 结果 。 需 要 记 住 的 是 ， 本 节 上 所 构 建 的 模型 并 未 进行 全 方位 的 评 佑 。 虽 然 我 们 采用 了 
较为 常见 的 评估 度量 方案 ， 但 机 器 学 习 模 型 中 的 核心 步骤 一 般 采 用 交叉 验证 。 对 于 模型 
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的 性 能 评估 来 说 ， 这 一 点 不 可 或 缺 。 
65 A ph% 


AS BEDS Ve T MWA By A Be a E ANA ARS Ee, NA T fey ae at 
Python 执行 机 器 学 习 方 面 的 操作 。 上 此外， 本章 还 利用 scikit-lean GEA F THM at Ps 
种 实例 ， 以 及 如 何 训练 分 类 模型 以 进行 预测 。 最 后 ， 本 章 构 建 了 一 个 回归 模型 并 以 此 进 
ITMI . 


